新课程:LLM的后训练 在这门短课程中,您将学习如何对LLM进行后训练和定制,课程由华盛顿大学@UW的助理教授@BanghuaZ教授,以及@NexusflowX的联合创始人授课。 训练LLM以遵循指令或回答问题有两个关键阶段:预训练和后训练。在预训练阶段,它学习从大量未标记文本中预测下一个单词或标记。在后训练阶段,它学习有用的行为,例如遵循指令、工具使用和推理。 后训练将一个通用的标记预测器——在数万亿个未标记文本标记上训练——转变为一个遵循指令并执行特定任务的助手。由于后训练的成本远低于预训练,因此比起预训练,更多团队可以将后训练方法纳入他们的工作流程。 在这门课程中,您将学习三种常见的后训练方法——监督微调(SFT)、直接偏好优化(DPO)和在线强化学习(RL)——以及如何有效使用每一种方法。通过SFT,您将模型训练在输入和理想输出响应的配对上。通过DPO,您提供一个首选(选择的)和一个不太首选(拒绝的)响应,并训练模型偏向首选输出。通过RL,模型生成输出,基于人类或自动反馈接收奖励分数,并更新模型以提高性能。 您将学习基本概念、常见用例以及为有效训练策划高质量数据的原则。通过动手实验,您将从Hugging Face下载一个预训练模型,并使用SFT、DPO和RL进行后训练,以观察每种技术如何塑造模型行为。 具体来说,您将: - 理解什么是后训练,何时使用它,以及它与预训练的区别。 - 构建一个SFT管道,将基础模型转变为指令模型。 - 探索DPO如何通过最小化对比损失来重塑行为——惩罚不良响应并强化首选响应。 - 实现一个DPO管道,以改变聊天助手的身份。 - 学习在线RL方法,如近端策略优化(PPO)和组相对策略优化(GRPO),以及如何设计奖励函数。 - 使用可验证的奖励训练模型GRPO,以提高其数学能力。 后训练是LLM训练中发展最快的领域之一。无论您是在构建高准确度的上下文特定助手、微调模型的语气,还是提高任务特定的准确性,这门课程将为您提供与当今LLM后训练最重要技术的经验。 请在此注册:
109.58K