1/ Kan kodbasspecifik RL tänja på gränsen för kod-LLM? På @cgftlabs hjälpte vi en klient att RL-justera Qwen-2.5-7B på deras interna kodbas för att skapa enhetstester, med täckningsstyrd GRPO. Resultatet? Den slår o4-mini och o3. Så här fungerar det (länk till hela bloggen i bio) 🧵
7,89K