المواضيع الرائجة
1 / هل يمكن ل RL الخاص بقاعدة التعليمات البرمجية دفع حدود LLMs البرمجية؟
في @cgftlabs ، ساعدنا العميل RL على ضبط Qwen-2.5-7B على قاعدة التعليمات البرمجية الداخلية الخاصة به لإنشاء اختبار الوحدة ، باستخدام GRPO الموجه بالتغطية. النتيجة؟ إنه يتفوق على o4-mini & o3. إليك كيفية عملها (رابط إلى المدونة الكاملة في السيرة الذاتية) 🧵

7.87K
الأفضل
المُتصدِّرة
التطبيقات المفضلة