Nuevo Curso: Post-formación de LLMs Aprende a post-entrenar y personalizar un LLM en este curso corto, impartido por @BanghuaZ, profesor asistente de la Universidad de Washington @UW y cofundador de @NexusflowX. La formación de un LLM para seguir instrucciones o responder preguntas tiene dos etapas clave: pre-formación y post-formación. En el entrenamiento previo, aprende a predecir la siguiente palabra o token a partir de grandes cantidades de texto sin etiquetar. En el post-entrenamiento, aprende comportamientos útiles como seguir instrucciones, usar herramientas y razonar. El entrenamiento posterior transforma un predictor de tokens de propósito general, entrenado con billones de tokens de texto sin etiquetar, en un asistente que sigue instrucciones y realiza tareas específicas. Debido a que es mucho más barato que el entrenamiento previo, es práctico para muchos más equipos incorporar métodos posteriores al entrenamiento en sus flujos de trabajo que el entrenamiento previo. En este curso, aprenderá tres métodos comunes posteriores a la capacitación: Ajuste fino supervisado (SFT), optimización de preferencias directas (DPO) y aprendizaje de refuerzo en línea (RL), y cómo usar cada uno de ellos de manera efectiva. Con SFT, se entrena el modelo en pares de respuestas de entrada y salida ideales. Con DPO, proporciona una respuesta preferida (elegida) y una menos preferida (rechazada) y entrena el modelo para favorecer la salida preferida. Con RL, el modelo genera una salida, recibe una puntuación de recompensa basada en comentarios humanos o automatizados y actualiza el modelo para mejorar el rendimiento. Aprenderá los conceptos básicos, los casos de uso comunes y los principios para seleccionar datos de alta calidad para una capacitación efectiva. A través de laboratorios prácticos, descargará un modelo previamente entrenado de Hugging Face y lo entrenará posteriormente con SFT, DPO y RL para ver cómo cada técnica da forma al comportamiento del modelo. En detalle, podrás: - Comprender qué es el post-entrenamiento, cuándo usarlo y en qué se diferencia del pre-entrenamiento. - Cree una canalización SFT para convertir un modelo base en un modelo de instrucción. - Explorar cómo el DPO remodela el comportamiento minimizando la pérdida de contraste, penalizando las respuestas deficientes y reforzando las preferidas. - Implementar una canalización de DPO para cambiar la identidad de un asistente de chat. - Aprenda métodos de RL en línea, como la optimización de políticas proximales (PPO) y la optimización de políticas relativas de grupo (GRPO), y cómo diseñar funciones de recompensa. - Entrenar un modelo con GRPO para mejorar sus capacidades matemáticas utilizando una recompensa verificable. La formación posterior es una de las áreas de formación de LLM que se ha desarrollado más rápidamente. Ya sea que estés creando un asistente específico de contexto de alta precisión, afinando el tono de un modelo o mejorando la precisión específica de una tarea, este curso te brindará experiencia con las técnicas más importantes que dan forma a la forma en que los LLM se entrenan después de la formación en la actualidad. Por favor, regístrese aquí:
109.59K