¿Quieres aprender a alinear un Modelo de Lenguaje de Visión (VLM) para el razonamiento utilizando GRPO y TRL? 🌋 🧑‍🍳 ¡Te tenemos cubierto!! Nueva receta de post-entrenamiento multimodal para alinear un VLM usando TRL en el Cookbook de @huggingface.
10.24K