Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nuovo Corso: Post-training di LLM
Impara a post-addestrare e personalizzare un LLM in questo breve corso, tenuto da @BanghuaZ, Professore Associato presso l'Università di Washington @UW e co-fondatore di @NexusflowX.
Addestrare un LLM a seguire istruzioni o rispondere a domande ha due fasi chiave: pre-addestramento e post-addestramento. Nel pre-addestramento, impara a prevedere la parola o il token successivo da grandi quantità di testo non etichettato. Nel post-addestramento, impara comportamenti utili come seguire istruzioni, utilizzo di strumenti e ragionamento.
Il post-addestramento trasforma un predittore di token di uso generale—addestrato su trilioni di token di testo non etichettato—in un assistente che segue istruzioni e svolge compiti specifici. Poiché è molto più economico del pre-addestramento, è pratico per molte più squadre incorporare metodi di post-addestramento nei loro flussi di lavoro rispetto al pre-addestramento.
In questo corso, imparerai tre metodi comuni di post-addestramento—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Online Reinforcement Learning (RL)—e come utilizzare ciascuno in modo efficace. Con SFT, addestri il modello su coppie di input e risposte ideali. Con DPO, fornisci sia una risposta preferita (scelta) che una meno preferita (rifiutata) e addestri il modello a favorire l'output preferito. Con RL, il modello genera un output, riceve un punteggio di ricompensa basato su feedback umano o automatizzato e aggiorna il modello per migliorare le prestazioni.
Imparerai i concetti di base, i casi d'uso comuni e i principi per curare dati di alta qualità per un addestramento efficace. Attraverso laboratori pratici, scaricherai un modello pre-addestrato da Hugging Face e lo post-addestrerai utilizzando SFT, DPO e RL per vedere come ciascuna tecnica modella il comportamento del modello.
In dettaglio, imparerai a:
- Comprendere cos'è il post-addestramento, quando usarlo e come si differenzia dal pre-addestramento.
- Costruire una pipeline SFT per trasformare un modello di base in un modello istruttivo.
- Esplorare come DPO rimodella il comportamento minimizzando la perdita contrastiva—penalizzando risposte scadenti e rinforzando quelle preferite.
- Implementare una pipeline DPO per cambiare l'identità di un assistente chat.
- Imparare metodi di RL online come Proximal Policy Optimization (PPO) e Group Relative Policy Optimization (GRPO), e come progettare funzioni di ricompensa.
- Addestrare un modello con GRPO per migliorare le sue capacità matematiche utilizzando una ricompensa verificabile.
Il post-addestramento è una delle aree in più rapida evoluzione dell'addestramento degli LLM. Che tu stia costruendo un assistente specifico per un contesto ad alta precisione, affinando il tono di un modello o migliorando la precisione specifica del compito, questo corso ti darà esperienza con le tecniche più importanti che plasmano come gli LLM vengono post-addestrati oggi.
Iscriviti qui:
109,59K
Principali
Ranking
Preferiti