1/ 特定於代碼庫的 RL 能否推動代碼 LLM 的前沿? 在 @cgftlabs,我們幫助客戶在其內部代碼庫上對 Qwen-2.5-7B 進行了 RL 調整,以創建單元測試,並使用覆蓋率引導的 GRPO。結果?它擊敗了 o4-mini 和 o3。這是它的工作原理(連結到簡歷中的完整博客) 🧵
7.88K