1 / ¿Puede RL específico de la base de código ampliar la frontera para los LLM de código? En @cgftlabs, ayudamos a un cliente a ajustar Qwen-2.5-7B en su base de código interna para la creación de pruebas unitarias, con GRPO guiado por cobertura. ¿El resultado? Supera a o4-mini y o3. Así es como funciona (enlace al blog completo en la biografía) 🧵
7.89K