想要学习如何使用 GRPO 和 TRL 对视觉语言模型 (VLM) 进行推理对齐吗?🌋 🧑‍🍳 我们为您提供帮助!! 新的多模态后训练食谱,使用 @huggingface 的 Cookbook 中的 TRL 对 VLM 进行对齐。
10.24K