1/ Kan kodebasespesifikk RL skyve grensen for kode LLM-er? På @cgftlabs hjalp vi en klient RL-tune Qwen-2.5-7B på deres interne kodebase for oppretting av enhetstest, med dekningsveiledet GRPO. Resultatet? Den slår o4-mini og o3. Slik fungerer det (lenke til hele bloggen i bio) 🧵
7,88K