Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Curs nou: Post-formare a LLM-urilor
Învățați să post-instruiți și să personalizați un LLM în acest curs scurt, predat de @BanghuaZ, profesor asistent la Universitatea din Washington @UW și co-fondator al @NexusflowX.
Instruirea unui LLM pentru a urma instrucțiuni sau a răspunde la întrebări are două etape cheie: pre-instruire și post-instruire. În pre-antrenament, învață să prezică următorul cuvânt sau token din cantități mari de text neetichetat. În post-instruire, învață comportamente utile, cum ar fi respectarea instrucțiunilor, utilizarea instrumentelor și raționamentul.
Post-instruirea transformă un predictor de jetoane de uz general - antrenat pe trilioane de jetoane de text neetichetate - într-un asistent care urmează instrucțiuni și îndeplinește sarcini specifice. Deoarece este mult mai ieftin decât pre-training, este practic pentru mult mai multe echipe să încorporeze metode post-training în fluxurile lor de lucru decât pre-training.
În acest curs, veți învăța trei metode comune post-instruire - Reglarea fină supravegheată (SFT), Optimizarea preferințelor directe (DPO) și Învățarea prin întărire online (RL) - și cum să le utilizați pe fiecare în mod eficient. Cu SFT, antrenați modelul pe perechi de răspunsuri de intrare și ieșire ideale. Cu DPO, oferiți atât un răspuns preferat (ales), cât și unul mai puțin preferat (respins) și antrenați modelul pentru a favoriza rezultatul preferat. Cu RL, modelul generează un rezultat, primește un scor de recompensă bazat pe feedback uman sau automat și actualizează modelul pentru a îmbunătăți performanța.
Veți învăța conceptele de bază, cazurile de utilizare comune și principiile pentru organizarea datelor de înaltă calitate pentru o instruire eficientă. Prin laboratoare practice, veți descărca un model pre-antrenat de la Hugging Face și îl veți antrena ulterior folosind SFT, DPO și RL pentru a vedea cum fiecare tehnică modelează comportamentul modelului.
În detaliu, voi:
- Înțelegeți ce este post-training, când să îl utilizați și cum diferă de pre-training.
- Construiți o conductă SFT pentru a transforma un model de bază într-un model instruct.
- Explorați modul în care DPO remodelează comportamentul prin minimizarea pierderilor contrastive - penalizând răspunsurile slabe și consolidându-le pe cele preferate.
- Implementați o conductă DPO pentru a schimba identitatea unui asistent de chat.
- Învățați metode RL online, cum ar fi Proximal Policy Optimization (PPO) și Group Relative Policy Optimization (GRPO) și cum să proiectați funcții de recompensă.
- Antrenați un model cu GRPO pentru a-i îmbunătăți capacitățile matematice folosind o recompensă verificabilă.
Post-formarea este unul dintre domeniile cu cea mai rapidă dezvoltare a formării LLM. Fie că construiți un asistent specific contextului de înaltă precizie, reglați fin tonul unui model sau îmbunătățiți precizia specifică sarcinii, acest curs vă va oferi experiență cu cele mai importante tehnici care modelează modul în care LLM-urile sunt post-antrenate astăzi.
Vă rugăm să vă înscrieți aici:
109,58K
Limită superioară
Clasament
Favorite