1/ L'RL specifico della base di codice può spingere la frontiera per i codici LLM? In @cgftlabs, abbiamo aiutato un cliente a mettere a punto Qwen-2.5-7B sulla loro base di codice interna per la creazione di unit test, con GRPO guidato dalla copertura. Il risultato? Batte o4-mini e o3. Ecco come funziona (link al blog completo in bio) 🧵
7,88K