Nuovo Corso: Post-training di LLM Impara a post-addestrare e personalizzare un LLM in questo breve corso, tenuto da @BanghuaZ, Professore Associato presso l'Università di Washington @UW e co-fondatore di @NexusflowX. Addestrare un LLM a seguire istruzioni o rispondere a domande ha due fasi chiave: pre-addestramento e post-addestramento. Nel pre-addestramento, impara a prevedere la parola o il token successivo da grandi quantità di testo non etichettato. Nel post-addestramento, impara comportamenti utili come seguire istruzioni, utilizzo di strumenti e ragionamento. Il post-addestramento trasforma un predittore di token di uso generale—addestrato su trilioni di token di testo non etichettato—in un assistente che segue istruzioni e svolge compiti specifici. Poiché è molto più economico del pre-addestramento, è pratico per molte più squadre incorporare metodi di post-addestramento nei loro flussi di lavoro rispetto al pre-addestramento. In questo corso, imparerai tre metodi comuni di post-addestramento—Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) e Online Reinforcement Learning (RL)—e come utilizzare ciascuno in modo efficace. Con SFT, addestri il modello su coppie di input e risposte ideali. Con DPO, fornisci sia una risposta preferita (scelta) che una meno preferita (rifiutata) e addestri il modello a favorire l'output preferito. Con RL, il modello genera un output, riceve un punteggio di ricompensa basato su feedback umano o automatizzato e aggiorna il modello per migliorare le prestazioni. Imparerai i concetti di base, i casi d'uso comuni e i principi per curare dati di alta qualità per un addestramento efficace. Attraverso laboratori pratici, scaricherai un modello pre-addestrato da Hugging Face e lo post-addestrerai utilizzando SFT, DPO e RL per vedere come ciascuna tecnica modella il comportamento del modello. In dettaglio, imparerai a: - Comprendere cos'è il post-addestramento, quando usarlo e come si differenzia dal pre-addestramento. - Costruire una pipeline SFT per trasformare un modello di base in un modello istruttivo. - Esplorare come DPO rimodella il comportamento minimizzando la perdita contrastiva—penalizzando risposte scadenti e rinforzando quelle preferite. - Implementare una pipeline DPO per cambiare l'identità di un assistente chat. - Imparare metodi di RL online come Proximal Policy Optimization (PPO) e Group Relative Policy Optimization (GRPO), e come progettare funzioni di ricompensa. - Addestrare un modello con GRPO per migliorare le sue capacità matematiche utilizzando una ricompensa verificabile. Il post-addestramento è una delle aree in più rapida evoluzione dell'addestramento degli LLM. Che tu stia costruendo un assistente specifico per un contesto ad alta precisione, affinando il tono di un modello o migliorando la precisione specifica del compito, questo corso ti darà esperienza con le tecniche più importanti che plasmano come gli LLM vengono post-addestrati oggi. Iscriviti qui:
109,59K