Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuevo Curso: Post-entrenamiento de LLMs
Aprende a post-entrenar y personalizar un LLM en este breve curso, impartido por @BanghuaZ, Profesor Asistente en la Universidad de Washington @UW, y cofundador de @NexusflowX.
Entrenar un LLM para seguir instrucciones o responder preguntas tiene dos etapas clave: pre-entrenamiento y post-entrenamiento. En el pre-entrenamiento, aprende a predecir la siguiente palabra o token a partir de grandes cantidades de texto no etiquetado. En el post-entrenamiento, aprende comportamientos útiles como seguir instrucciones, uso de herramientas y razonamiento.
El post-entrenamiento transforma un predictor de tokens de propósito general—entrenado con billones de tokens de texto no etiquetado—en un asistente que sigue instrucciones y realiza tareas específicas. Debido a que es mucho más barato que el pre-entrenamiento, es práctico para muchos más equipos incorporar métodos de post-entrenamiento en sus flujos de trabajo que el pre-entrenamiento.
En este curso, aprenderás tres métodos comunes de post-entrenamiento—Ajuste Fino Supervisado (SFT), Optimización de Preferencias Directas (DPO) y Aprendizaje por Refuerzo en Línea (RL)—y cómo usar cada uno de manera efectiva. Con SFT, entrenas el modelo con pares de entrada y respuestas ideales. Con DPO, proporcionas tanto una respuesta preferida (elegida) como una menos preferida (rechazada) y entrenas al modelo para favorecer la salida preferida. Con RL, el modelo genera una salida, recibe una puntuación de recompensa basada en la retroalimentación humana o automatizada, y actualiza el modelo para mejorar el rendimiento.
Aprenderás los conceptos básicos, casos de uso comunes y principios para curar datos de alta calidad para un entrenamiento efectivo. A través de laboratorios prácticos, descargarás un modelo pre-entrenado de Hugging Face y lo post-entrenarás utilizando SFT, DPO y RL para ver cómo cada técnica moldea el comportamiento del modelo.
En detalle, aprenderás a:
- Entender qué es el post-entrenamiento, cuándo usarlo y cómo se diferencia del pre-entrenamiento.
- Construir una tubería SFT para convertir un modelo base en un modelo instructivo.
- Explorar cómo DPO remodela el comportamiento minimizando la pérdida contrastiva—penalizando respuestas pobres y reforzando las preferidas.
- Implementar una tubería DPO para cambiar la identidad de un asistente de chat.
- Aprender métodos de RL en línea como Optimización de Políticas Proximales (PPO) y Optimización de Políticas Relativas de Grupo (GRPO), y cómo diseñar funciones de recompensa.
- Entrenar un modelo con GRPO para mejorar sus capacidades matemáticas utilizando una recompensa verificable.
El post-entrenamiento es una de las áreas de más rápido desarrollo en el entrenamiento de LLM. Ya sea que estés construyendo un asistente específico de contexto de alta precisión, ajustando el tono de un modelo o mejorando la precisión específica de tareas, este curso te dará experiencia con las técnicas más importantes que están moldeando cómo se post-entrenan los LLM hoy en día.
Por favor, inscríbete aquí:
109,6K
Parte superior
Clasificación
Favoritos