1 / هل يمكن ل RL الخاص بقاعدة التعليمات البرمجية دفع حدود LLMs البرمجية؟ في @cgftlabs ، ساعدنا العميل RL على ضبط Qwen-2.5-7B على قاعدة التعليمات البرمجية الداخلية الخاصة به لإنشاء اختبار الوحدة ، باستخدام GRPO الموجه بالتغطية. النتيجة؟ إنه يتفوق على o4-mini & o3. إليك كيفية عملها (رابط إلى المدونة الكاملة في السيرة الذاتية) 🧵
‏‎7.87‏K