Ny kurs: Efterutbildning av LLM Lär dig att efterträna och anpassa en LLM i denna korta kurs, undervisad av @BanghuaZ, biträdande professor vid University of Washington @UW, och medgrundare av @NexusflowX. Att träna en LLM för att följa instruktioner eller svara på frågor har två nyckelsteg: förträning och efterträning. Under förträningen lär den sig att förutsäga nästa ord eller token från stora mängder omärkt text. Efter träningen lär den sig användbara beteenden som att följa instruktioner, använda verktyg och resonera. Efter träningen omvandlas en allmän tokenprediktor – som tränats på biljoner omärkta texttoken – till en assistent som följer instruktioner och utför specifika uppgifter. Eftersom det är mycket billigare än förträning är det praktiskt för många fler team att införliva efterträningsmetoder i sina arbetsflöden än förträning. I den här kursen får du lära dig tre vanliga metoder efter träningen – Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) och Online Reinforcement Learning (RL) – och hur du använder var och en av dem på ett effektivt sätt. Med SFT tränar du modellen på par av indata- och ideala utdatasvar. Med DPO anger du både ett önskat (valt) och ett mindre önskat (avvisat) svar och tränar modellen att prioritera önskade utdata. Med RL genererar modellen utdata, får en belöningspoäng baserat på mänsklig eller automatiserad feedback och uppdaterar modellen för att förbättra prestandan. Du kommer att lära dig de grundläggande begreppen, vanliga användningsfall och principer för att kurera data av hög kvalitet för effektiv träning. Genom praktiska labbövningar laddar du ner en förtränad modell från Hugging Face och eftertränar den med hjälp av SFT, DPO och RL för att se hur varje teknik formar modellens beteende. I detalj kommer du att: - Förstå vad efterträning är, när man ska använda det och hur det skiljer sig från förträning. - Bygg en SFT-pipeline för att omvandla en basmodell till en instruktionsmodell. - Utforska hur DPO omformar beteenden genom att minimera kontrastiv förlust – straffa dåliga svar och förstärka föredragna svar. - Implementera en DPO-pipeline för att ändra identiteten för en chattassistent. - Lär dig RL-metoder online, t.ex. Proximal Policy Optimization (PPO) och GRPO (Group Relative Policy Optimization), och hur du utformar belöningsfunktioner. - Träna en modell med GRPO för att förbättra dess matematiska färdigheter med hjälp av en verifierbar belöning. Efterutbildning är ett av de snabbast utvecklande områdena för LLM-utbildning. Oavsett om du bygger en kontextspecifik assistent med hög noggrannhet, finjusterar en modells ton eller förbättrar uppgiftsspecifik noggrannhet, kommer den här kursen att ge dig erfarenhet av de viktigaste teknikerna som formar hur LLM:er eftertränas idag. Anmäl dig här:
109,58K