Nový kurz: Post-trénink LLM Naučte se post-trénovat a přizpůsobit LLM v tomto krátkém kurzu, který vyučuje @BanghuaZ, odborný asistent na University of Washington @UW a spoluzakladatel @NexusflowX. Školení LLM, aby se řídil pokyny nebo odpovídal na otázky, má dvě klíčové fáze: předtrénink a post-trénink. V předtréninku se učí předvídat další slovo nebo token z velkého množství neoznačeného textu. V post-tréninku se učí užitečnému chování, jako je dodržování pokynů, používání nástrojů a uvažování. Post-trénování transformuje univerzální prediktor tokenů – trénovaný na bilionech neoznačených textových tokenů – na asistenta, který se řídí pokyny a provádí konkrétní úkoly. Protože je to mnohem levnější než předtrénink, je praktické, aby mnohem více týmů začlenilo do svých pracovních postupů metody po školení než před školením. V tomto kurzu se naučíte tři běžné metody po školení – Jemné ladění pod dohledem (SFT), Přímá optimalizace preferencí (DPO) a Online zpětnovazební učení (RL) – a jak každou z nich efektivně používat. Pomocí SFT trénujete model na párech vstupních a ideálních výstupních odpovědí. S DPO poskytnete preferovanou (vybranou) i méně preferovanou (zamítnutou) odpověď a vytrénujete model tak, aby upřednostňoval preferovaný výstup. S řádkem RL model generuje výstup, získává skóre odměny na základě lidské nebo automatizované zpětné vazby a aktualizuje model za účelem zlepšení výkonu. Naučíte se základní koncepty, běžné případy použití a principy pro kurátorství vysoce kvalitních dat pro efektivní školení. Prostřednictvím praktických cvičení si stáhnete předem natrénovaný model z Hugging Face a poté jej vytrénujete pomocí SFT, DPO a RL, abyste viděli, jak jednotlivé techniky formují chování modelu. Podrobněji se dozvíte: - Pochopte, co je to posttrénink, kdy ho použít a jak se liší od pre-tréninku. - Vytvořte kanál SFT a přeměňte základní model na instruktážní model. - Prozkoumejte, jak DPO přetváří chování minimalizací kontrastní ztráty – penalizací špatných odpovědí a posílením preferovaných. - Implementujte kanál DPO pro změnu identity chatovacího asistenta. - Naučte se online metody RL, jako je proximální optimalizace politik (PPO) a skupinová relativní optimalizace politik (GRPO), a jak navrhovat funkce odměňování. - Trénujte model pomocí GRPO a vylepšete jeho matematické schopnosti pomocí ověřitelné odměny. Post-trénink je jednou z nejrychleji se rozvíjejících oblastí LLM vzdělávání. Ať už vytváříte vysoce přesného kontextově specifického asistenta, dolaďujete tón modelu nebo zlepšujete přesnost pro konkrétní úkol, tento kurz vám poskytne zkušenosti s nejdůležitějšími technikami, které utvářejí to, jak jsou dnes LLM post-trénovány. Zaregistrujte se prosím zde:
109,59K