新コース:LLMのポストトレーニング この短いコースでは、ワシントン大学@UWの助教授であり、@NexusflowXの共同創設者である@BanghuaZが教えるLLMのポストトレーニングとカスタマイズを学びます。 LLMが指示に従うか、質問に答えるためのトレーニングには、事前トレーニングとトレーニング後の2つの主要な段階があります。事前学習では、ラベルのない大量のテキストから次の単語やトークンを予測することを学習します。学習後の学習では、指示に従うこと、ツールの使用、推論など、有用な行動を学習します。 トレーニング後、何兆ものラベルのないテキストトークンでトレーニングされた汎用トークン予測器を、指示に従い特定のタスクを実行するアシスタントに変換します。事前トレーニングよりもはるかに安価であるため、事前トレーニングよりも多くのチームが事前トレーニングよりもトレーニング後の方法をワークフローに組み込むことが実用的です。 このコースでは、教師あり微調整 (SFT)、直接優先最適化 (DPO)、オンライン強化学習 (RL) の 3 つの一般的な学習後の方法と、それぞれを効果的に使用する方法を学びます。SFT では、入力応答と理想的な出力応答のペアでモデルを学習させます。DPO では、優先される (選択された) 応答とあまり好ましくない (拒否された) 応答の両方を提供し、優先される出力を優先するようにモデルをトレーニングします。RL を使用すると、モデルは出力を生成し、人間または自動のフィードバックに基づいて報酬スコアを受け取り、モデルを更新してパフォーマンスを向上させます。 効果的なトレーニングのために高品質のデータをキュレーションするための基本的な概念、一般的なユースケース、原則を学びます。ハンズオン ラボでは、Hugging Face から事前学習済みのモデルをダウンロードし、SFT、DPO、RL を使用して事前学習を行い、各手法がモデルの動作をどのように形成するかを確認します。 詳細には、次のことを行います。 - ポストトレーニングとは何か、いつ使用するか、プレトレーニングとの違いを理解する。 - SFT パイプラインを構築して、基本モデルを指示モデルに変換します。 - DPOがコントラスティブロスを最小限に抑え、不適切な回答にペナルティを課し、好ましい回答を強化することで、どのように行動を再構築するかを探ります。 - DPO パイプラインを実装して、チャット アシスタントの ID を変更します。 - Proximal Policy Optimization(PPO)やGroup Relative Policy Optimization(GRPO)などのオンラインRL手法と、報酬関数の設計方法を学びます。 - GRPO でモデルをトレーニングし、検証可能な報酬を使用して数学の能力を向上させます。 ポストトレーニングは、LLMトレーニングの中で最も急速に発展している分野の1つです。高精度のコンテキストスペシフィックアシスタントの構築、モデルのトーンの微調整、タスク固有の精度の向上など、このコースでは、今日のLLMのポストトレーニング方法を形作る最も重要な手法を体験することができます。 こちらからご登録ください。
109.58K