Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nový kurz: Post-trénink LLM
Naučte se post-trénovat a přizpůsobit LLM v tomto krátkém kurzu, který vyučuje @BanghuaZ, odborný asistent na University of Washington @UW a spoluzakladatel @NexusflowX.
Školení LLM, aby se řídil pokyny nebo odpovídal na otázky, má dvě klíčové fáze: předtrénink a post-trénink. V předtréninku se učí předvídat další slovo nebo token z velkého množství neoznačeného textu. V post-tréninku se učí užitečnému chování, jako je dodržování pokynů, používání nástrojů a uvažování.
Post-trénování transformuje univerzální prediktor tokenů – trénovaný na bilionech neoznačených textových tokenů – na asistenta, který se řídí pokyny a provádí konkrétní úkoly. Protože je to mnohem levnější než předtrénink, je praktické, aby mnohem více týmů začlenilo do svých pracovních postupů metody po školení než před školením.
V tomto kurzu se naučíte tři běžné metody po školení – Jemné ladění pod dohledem (SFT), Přímá optimalizace preferencí (DPO) a Online zpětnovazební učení (RL) – a jak každou z nich efektivně používat. Pomocí SFT trénujete model na párech vstupních a ideálních výstupních odpovědí. S DPO poskytnete preferovanou (vybranou) i méně preferovanou (zamítnutou) odpověď a vytrénujete model tak, aby upřednostňoval preferovaný výstup. S řádkem RL model generuje výstup, získává skóre odměny na základě lidské nebo automatizované zpětné vazby a aktualizuje model za účelem zlepšení výkonu.
Naučíte se základní koncepty, běžné případy použití a principy pro kurátorství vysoce kvalitních dat pro efektivní školení. Prostřednictvím praktických cvičení si stáhnete předem natrénovaný model z Hugging Face a poté jej vytrénujete pomocí SFT, DPO a RL, abyste viděli, jak jednotlivé techniky formují chování modelu.
Podrobněji se dozvíte:
- Pochopte, co je to posttrénink, kdy ho použít a jak se liší od pre-tréninku.
- Vytvořte kanál SFT a přeměňte základní model na instruktážní model.
- Prozkoumejte, jak DPO přetváří chování minimalizací kontrastní ztráty – penalizací špatných odpovědí a posílením preferovaných.
- Implementujte kanál DPO pro změnu identity chatovacího asistenta.
- Naučte se online metody RL, jako je proximální optimalizace politik (PPO) a skupinová relativní optimalizace politik (GRPO), a jak navrhovat funkce odměňování.
- Trénujte model pomocí GRPO a vylepšete jeho matematické schopnosti pomocí ověřitelné odměny.
Post-trénink je jednou z nejrychleji se rozvíjejících oblastí LLM vzdělávání. Ať už vytváříte vysoce přesného kontextově specifického asistenta, dolaďujete tón modelu nebo zlepšujete přesnost pro konkrétní úkol, tento kurz vám poskytne zkušenosti s nejdůležitějšími technikami, které utvářejí to, jak jsou dnes LLM post-trénovány.
Zaregistrujte se prosím zde:
109,59K
Top
Hodnocení
Oblíbené