Хотите узнать, как выровнять Модель Языка Видения (VLM) для рассуждений с использованием GRPO и TRL? 🌋 🧑‍🍳 Мы вас обеспечим!! НОВЫЙ рецепт многомодального пост-тренинга для выравнивания VLM с использованием TRL в Кулинарной книге @huggingface.
10,21K