Neuer Kurs: Nachtraining von LLMs Lernen Sie, ein LLM in diesem kurzen Kurs nachzutrainieren und anzupassen, unterrichtet von @BanghuaZ, Assistenzprofessor an der University of Washington @UW und Mitbegründer von @NexusflowX. Das Training eines LLM, um Anweisungen zu befolgen oder Fragen zu beantworten, hat zwei wichtige Phasen: Vortraining und Nachtraining. Im Vortraining lernt es, das nächste Wort oder Token aus großen Mengen unbeschrifteten Textes vorherzusagen. Im Nachtraining lernt es nützliche Verhaltensweisen wie das Befolgen von Anweisungen, die Nutzung von Werkzeugen und das logische Denken. Das Nachtraining verwandelt einen allgemeinen Token-Prädiktor – der auf Billionen unbeschrifteter Text-Token trainiert wurde – in einen Assistenten, der Anweisungen befolgt und spezifische Aufgaben ausführt. Da es viel günstiger ist als das Vortraining, ist es für viele Teams praktischer, Nachtraining-Methoden in ihre Arbeitsabläufe zu integrieren als Vortraining. In diesem Kurs lernen Sie drei gängige Nachtraining-Methoden – Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) und Online Reinforcement Learning (RL) – und wie Sie jede davon effektiv nutzen können. Mit SFT trainieren Sie das Modell mit Paaren von Eingaben und idealen Ausgaben. Mit DPO geben Sie sowohl eine bevorzugte (gewählte) als auch eine weniger bevorzugte (abgelehnte) Antwort an und trainieren das Modell, um die bevorzugte Ausgabe zu begünstigen. Mit RL generiert das Modell eine Ausgabe, erhält eine Belohnungsbewertung basierend auf menschlichem oder automatisiertem Feedback und aktualisiert das Modell, um die Leistung zu verbessern. Sie lernen die grundlegenden Konzepte, gängige Anwendungsfälle und Prinzipien zur Kuratierung hochwertiger Daten für effektives Training. Durch praktische Labore laden Sie ein vortrainiertes Modell von Hugging Face herunter und trainieren es nach, indem Sie SFT, DPO und RL verwenden, um zu sehen, wie jede Technik das Verhalten des Modells beeinflusst. Im Detail werden Sie: - Verstehen, was Nachtraining ist, wann man es anwendet und wie es sich vom Vortraining unterscheidet. - Eine SFT-Pipeline aufbauen, um ein Basis-Modell in ein Anweisungs-Modell zu verwandeln. - Erkunden, wie DPO das Verhalten umgestaltet, indem es den kontrastiven Verlust minimiert – schlechte Antworten bestraft und bevorzugte verstärkt. - Eine DPO-Pipeline implementieren, um die Identität eines Chat-Assistenten zu ändern. - Online-RL-Methoden wie Proximal Policy Optimization (PPO) und Group Relative Policy Optimization (GRPO) lernen und wie man Belohnungsfunktionen entwirft. - Ein Modell mit GRPO trainieren, um seine mathematischen Fähigkeiten mit einer überprüfbaren Belohnung zu verbessern. Das Nachtraining ist eines der am schnellsten wachsenden Bereiche des LLM-Trainings. Egal, ob Sie einen hochgenauen kontextspezifischen Assistenten erstellen, den Ton eines Modells anpassen oder die aufgabenspezifische Genauigkeit verbessern, dieser Kurs gibt Ihnen Erfahrung mit den wichtigsten Techniken, die die Art und Weise prägen, wie LLMs heute nachtrainiert werden. Bitte melden Sie sich hier an:
109,59K