Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nieuwe Cursus: Post-training van LLM's
Leer hoe je een LLM kunt post-trainen en aanpassen in deze korte cursus, gegeven door @BanghuaZ, assistent-professor aan de Universiteit van Washington @UW, en mede-oprichter van @NexusflowX.
Het trainen van een LLM om instructies te volgen of vragen te beantwoorden heeft twee belangrijke fasen: pre-training en post-training. Tijdens de pre-training leert het om het volgende woord of token te voorspellen uit grote hoeveelheden niet-gelabelde tekst. In de post-training leert het nuttige gedragingen zoals het volgen van instructies, het gebruik van tools en redeneren.
Post-training transformeert een algemeen token-voorspeller—getraind op triljoenen niet-gelabelde teksttokens—tot een assistent die instructies volgt en specifieke taken uitvoert. Omdat het veel goedkoper is dan pre-training, is het praktischer voor veel meer teams om post-training methoden in hun workflows op te nemen dan pre-training.
In deze cursus leer je drie veelvoorkomende post-training methoden—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) en Online Reinforcement Learning (RL)—en hoe je elk effectief kunt gebruiken. Met SFT train je het model op paren van invoer en ideale outputreacties. Met DPO geef je zowel een voorkeur (gekozen) als een minder voorkeur (afgewezen) reactie en train je het model om de voorkeuroutput te bevoordelen. Met RL genereert het model een output, ontvangt het een beloningsscore op basis van menselijke of geautomatiseerde feedback, en werkt het model bij om de prestaties te verbeteren.
Je leert de basisconcepten, veelvoorkomende gebruiksgevallen en principes voor het cureren van hoogwaardige data voor effectieve training. Door middel van praktische labs download je een voorgetraind model van Hugging Face en post-train je het met SFT, DPO en RL om te zien hoe elke techniek het gedrag van het model vormt.
In detail zul je:
- Begrijpen wat post-training is, wanneer je het moet gebruiken en hoe het verschilt van pre-training.
- Een SFT-pijplijn bouwen om een basismodel om te zetten in een instructiemodel.
- Onderzoeken hoe DPO gedrag hervormt door contrastieve verlies te minimaliseren—slechte reacties te straffen en voorkeurreacties te versterken.
- Een DPO-pijplijn implementeren om de identiteit van een chatassistent te veranderen.
- Online RL-methoden leren zoals Proximal Policy Optimization (PPO) en Group Relative Policy Optimization (GRPO), en hoe je beloningsfuncties ontwerpt.
- Een model trainen met GRPO om zijn wiskundige capaciteiten te verbeteren met een verifieerbare beloning.
Post-training is een van de snelst ontwikkelende gebieden van LLM-training. Of je nu een context-specifieke assistent met hoge nauwkeurigheid bouwt, de toon van een model verfijnt of de taak-specifieke nauwkeurigheid verbetert, deze cursus geeft je ervaring met de belangrijkste technieken die bepalen hoe LLM's vandaag de dag worden post-getraind.
Meld je hier aan:
109,59K
Boven
Positie
Favorieten