1/ Může RL specifické pro codebase posunout hranice pro LLM kódu? Ve společnosti @cgftlabs jsme pomohli klientovi vyladit Qwen-2.5-7B na jeho interní kódové základně pro tvorbu unit testů pomocí GRPO řízeného pokrytím. Výsledek? Poráží o4-mini & o3. Zde je návod, jak to funguje (odkaz na celý blog v bio) 🧵
7,87K