Bạn muốn học cách điều chỉnh một Mô hình Ngôn ngữ Tầm nhìn (VLM) để suy luận bằng cách sử dụng GRPO và TRL? 🌋 🧑‍🍳 Chúng tôi đã sẵn sàng giúp bạn!! Công thức huấn luyện đa phương thức mới để điều chỉnh một VLM bằng cách sử dụng TRL trong Cookbook của @huggingface.
10,23K