Quer aprender como alinhar um Modelo de Linguagem de Visão (VLM) para raciocínio usando GRPO e TRL? 🌋 🧑‍🍳 Temos tudo o que você precisa!! Nova receita de pós-treinamento multimodal para alinhar um VLM usando TRL no Cookbook da @huggingface.
10,24K