1/ A RL específica da base de código pode ultrapassar a fronteira para LLMs de código? Na @cgftlabs, ajudamos um cliente a ajustar o Qwen-2.5-7B em sua base de código interna para criação de testes de unidade, com GRPO guiado por cobertura. O resultado? Ele supera o4-mini & o3. Veja como funciona (link para o blog completo na bio) 🧵
7,86K