1/ A RL específica da base de código pode expandir a fronteira para LLMs de código? Na @cgftlabs, ajudamos um cliente a sintonizar o Qwen-2.5-7B em sua base de código interna para a criação de testes de unidade, com GRPO guiado por cobertura. O resultado? Bate o4-mini & o3. Veja como funciona (link para o blog completo na bio) 🧵
7,87K