Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nytt kurs: Ettertrening av LLM-er
Lær å ettertrene og tilpasse en LLM i dette korte kurset, undervist av @BanghuaZ, assisterende professor ved University of Washington @UW, og medgründer av @NexusflowX.
Å trene en LLM til å følge instruksjoner eller svare på spørsmål har to nøkkelstadier: før trening og ettertrening. I fortrening lærer den å forutsi neste ord eller token fra store mengder umerket tekst. I ettertrening lærer den nyttig atferd som å følge instruksjoner, verktøybruk og resonnement.
Ettertrening forvandler en generell tokenprediktor – trent på billioner av umerkede teksttokener – til en assistent som følger instruksjoner og utfører spesifikke oppgaver. Fordi det er mye billigere enn forhåndsopplæring, er det praktisk for mange flere team å innlemme ettertreningsmetoder i arbeidsflytene sine enn forhåndsopplæring.
I dette kurset lærer du tre vanlige metoder etter opplæring – Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) og Online Reinforcement Learning (RL) – og hvordan du bruker hver enkelt effektivt. Med SFT trener du modellen på par med inndata og ideelle utgangsresponser. Med DPO gir du både et foretrukket (valgt) og et mindre foretrukket (avvist) svar og trener modellen til å favorisere de foretrukne utdataene. Med RL genererer modellen utdata, mottar en belønningspoengsum basert på menneskelig eller automatisert tilbakemelding, og oppdaterer modellen for å forbedre ytelsen.
Du lærer de grunnleggende konseptene, vanlige brukstilfeller og prinsipper for å kuratere data av høy kvalitet for effektiv opplæring. Gjennom praktiske laboratorier laster du ned en forhåndstrent modell fra Hugging Face og ettertrener den ved hjelp av SFT, DPO og RL for å se hvordan hver teknikk former modellatferd.
I detalj vil du:
- Forstå hva ettertrening er, når du skal bruke det, og hvordan det skiller seg fra fortrening.
- Bygg et SFT-datasamlebånd for å gjøre en basismodell om til en instruksjonsmodell.
- Utforsk hvordan DPO omformer atferd ved å minimere kontrastivt tap – straffe dårlige svar og forsterke foretrukne.
- Implementer en DPO-pipeline for å endre identiteten til en chatassistent.
- Lær online RL-metoder som Proximal Policy Optimization (PPO) og Group Relative Policy Optimization (GRPO), og hvordan du designer belønningsfunksjoner.
- Tren en modell med GRPO for å forbedre dens matematiske evner ved hjelp av en verifiserbar belønning.
Ettertrening er et av de raskest utviklende områdene innen LLM-opplæring. Enten du bygger en kontekstspesifikk assistent med høy nøyaktighet, finjusterer en modells tone eller forbedrer oppgavespesifikk nøyaktighet, vil dette kurset gi deg erfaring med de viktigste teknikkene som former hvordan LLM-er ettertrentes i dag.
Vennligst registrer deg her:
109,59K
Topp
Rangering
Favoritter