1/ RL dành riêng cho cơ sở mã có thể thúc đẩy biên giới cho mã LLM không? Tại @cgftlabs, chúng tôi đã giúp một khách hàng RL-tune Qwen-2.5-7B trên cơ sở mã nội bộ của họ để tạo thử nghiệm đơn vị, với GRPO được hướng dẫn theo phạm vi bảo hiểm. Kết quả? Nó đánh bại o4-mini & o3. Đây là cách nó hoạt động (liên kết đến blog đầy đủ trong tiểu sử) 🧵
7,86K