Nouveau cours : Post-formation des LLMs Apprenez à post-former et personnaliser un LLM dans ce court cours, enseigné par @BanghuaZ, professeur adjoint à l'Université de Washington @UW, et co-fondateur de @NexusflowX. Former un LLM à suivre des instructions ou à répondre à des questions comporte deux étapes clés : la pré-formation et la post-formation. Lors de la pré-formation, il apprend à prédire le mot ou le jeton suivant à partir de grandes quantités de texte non étiqueté. Dans la post-formation, il apprend des comportements utiles tels que suivre des instructions, utiliser des outils et raisonner. La post-formation transforme un prédicteur de jetons à usage général—formé sur des trillions de jetons de texte non étiquetés—en un assistant qui suit des instructions et effectue des tâches spécifiques. Comme cela coûte beaucoup moins cher que la pré-formation, il est pratique pour beaucoup plus d'équipes d'incorporer des méthodes de post-formation dans leurs flux de travail que de pré-formation. Dans ce cours, vous apprendrez trois méthodes courantes de post-formation : Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) et Online Reinforcement Learning (RL)—et comment utiliser chacune efficacement. Avec SFT, vous formez le modèle sur des paires d'entrées et de réponses idéales. Avec DPO, vous fournissez à la fois une réponse préférée (choisie) et une réponse moins préférée (rejetée) et formez le modèle à privilégier la sortie préférée. Avec RL, le modèle génère une sortie, reçoit un score de récompense basé sur des retours humains ou automatisés, et met à jour le modèle pour améliorer les performances. Vous apprendrez les concepts de base, les cas d'utilisation courants et les principes pour sélectionner des données de haute qualité pour une formation efficace. À travers des laboratoires pratiques, vous téléchargerez un modèle pré-entraîné depuis Hugging Face et le post-formerez en utilisant SFT, DPO et RL pour voir comment chaque technique façonne le comportement du modèle. En détail, vous : - Comprendrez ce qu'est la post-formation, quand l'utiliser et comment elle diffère de la pré-formation. - Construirez un pipeline SFT pour transformer un modèle de base en un modèle d'instruction. - Explorerez comment DPO redéfinit le comportement en minimisant la perte contrastive—pénalisant les mauvaises réponses et renforçant celles préférées. - Mettrez en œuvre un pipeline DPO pour changer l'identité d'un assistant de chat. - Apprendrez des méthodes RL en ligne telles que Proximal Policy Optimization (PPO) et Group Relative Policy Optimization (GRPO), et comment concevoir des fonctions de récompense. - Formerez un modèle avec GRPO pour améliorer ses capacités mathématiques en utilisant une récompense vérifiable. La post-formation est l'un des domaines les plus en développement rapide de la formation des LLM. Que vous construisiez un assistant contextuel à haute précision, ajustiez le ton d'un modèle ou amélioriez la précision spécifique à une tâche, ce cours vous donnera de l'expérience avec les techniques les plus importantes qui façonnent la façon dont les LLMs sont post-formés aujourd'hui. Veuillez vous inscrire ici :
109,58K