熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新課程:LLMs 的後訓練
在這個短期課程中,您將學習如何後訓練和自定義 LLM,由華盛頓大學 @UW 的助理教授 @BanghuaZ 教授,並且是 @NexusflowX 的共同創辦人。
訓練 LLM 以遵循指示或回答問題有兩個關鍵階段:預訓練和後訓練。在預訓練中,它學會從大量未標記的文本中預測下一個單詞或標記。在後訓練中,它學會有用的行為,例如遵循指示、使用工具和推理。
後訓練將一個通用的標記預測器——在數萬億的未標記文本標記上訓練——轉變為一個遵循指示並執行特定任務的助手。因為它比預訓練便宜得多,所以許多團隊比起預訓練,更實際地將後訓練方法納入他們的工作流程。
在這個課程中,您將學習三種常見的後訓練方法——監督微調 (SFT)、直接偏好優化 (DPO) 和在線強化學習 (RL)——以及如何有效地使用每一種方法。使用 SFT,您將模型訓練在輸入和理想輸出響應的對上。使用 DPO,您提供一個首選(選擇的)和一個不太首選(拒絕的)響應,並訓練模型偏向首選輸出。使用 RL,模型生成輸出,根據人類或自動反饋獲得獎勵分數,並更新模型以提高性能。
您將學習基本概念、常見用例和策劃高質量數據以進行有效訓練的原則。通過實踐實驗室,您將從 Hugging Face 下載一個預訓練模型,並使用 SFT、DPO 和 RL 進行後訓練,以查看每種技術如何塑造模型行為。
具體來說,您將:
- 理解什麼是後訓練,何時使用它,以及它與預訓練的區別。
- 建立一個 SFT 管道,將基礎模型轉變為指令模型。
- 探索 DPO 如何通過最小化對比損失來重塑行為——懲罰不良響應並強化首選響應。
- 實施 DPO 管道以改變聊天助手的身份。
- 學習在線 RL 方法,如近端策略優化 (PPO) 和群體相對策略優化 (GRPO),以及如何設計獎勵函數。
- 使用可驗證的獎勵訓練模型以提高其數學能力。
後訓練是 LLM 訓練中發展最快的領域之一。無論您是在構建高準確度的上下文特定助手、微調模型的語調,還是提高任務特定的準確性,這門課程將使您獲得與當前 LLM 後訓練最重要技術的經驗。
請在此處報名:
109.58K
熱門
排行
收藏