トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
新コース:LLMのポストトレーニング
この短いコースでは、ワシントン大学@UWの助教授であり、@NexusflowXの共同創設者である@BanghuaZが教えるLLMのポストトレーニングとカスタマイズを学びます。
LLMが指示に従うか、質問に答えるためのトレーニングには、事前トレーニングとトレーニング後の2つの主要な段階があります。事前学習では、ラベルのない大量のテキストから次の単語やトークンを予測することを学習します。学習後の学習では、指示に従うこと、ツールの使用、推論など、有用な行動を学習します。
トレーニング後、何兆ものラベルのないテキストトークンでトレーニングされた汎用トークン予測器を、指示に従い特定のタスクを実行するアシスタントに変換します。事前トレーニングよりもはるかに安価であるため、事前トレーニングよりも多くのチームが事前トレーニングよりもトレーニング後の方法をワークフローに組み込むことが実用的です。
このコースでは、教師あり微調整 (SFT)、直接優先最適化 (DPO)、オンライン強化学習 (RL) の 3 つの一般的な学習後の方法と、それぞれを効果的に使用する方法を学びます。SFT では、入力応答と理想的な出力応答のペアでモデルを学習させます。DPO では、優先される (選択された) 応答とあまり好ましくない (拒否された) 応答の両方を提供し、優先される出力を優先するようにモデルをトレーニングします。RL を使用すると、モデルは出力を生成し、人間または自動のフィードバックに基づいて報酬スコアを受け取り、モデルを更新してパフォーマンスを向上させます。
効果的なトレーニングのために高品質のデータをキュレーションするための基本的な概念、一般的なユースケース、原則を学びます。ハンズオン ラボでは、Hugging Face から事前学習済みのモデルをダウンロードし、SFT、DPO、RL を使用して事前学習を行い、各手法がモデルの動作をどのように形成するかを確認します。
詳細には、次のことを行います。
- ポストトレーニングとは何か、いつ使用するか、プレトレーニングとの違いを理解する。
- SFT パイプラインを構築して、基本モデルを指示モデルに変換します。
- DPOがコントラスティブロスを最小限に抑え、不適切な回答にペナルティを課し、好ましい回答を強化することで、どのように行動を再構築するかを探ります。
- DPO パイプラインを実装して、チャット アシスタントの ID を変更します。
- Proximal Policy Optimization(PPO)やGroup Relative Policy Optimization(GRPO)などのオンラインRL手法と、報酬関数の設計方法を学びます。
- GRPO でモデルをトレーニングし、検証可能な報酬を使用して数学の能力を向上させます。
ポストトレーニングは、LLMトレーニングの中で最も急速に発展している分野の1つです。高精度のコンテキストスペシフィックアシスタントの構築、モデルのトーンの微調整、タスク固有の精度の向上など、このコースでは、今日のLLMのポストトレーニング方法を形作る最も重要な手法を体験することができます。
こちらからご登録ください。
109.58K
トップ
ランキング
お気に入り