一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

1/ 特定於代碼庫的 RL 能否推動代碼 LLM 的前沿？在 @cgftlabs，我們幫助客戶在其內部代碼庫上對 Qwen-2.5-7B 進行了 RL 調整，以創建單元測試，並使用覆蓋率引導的 GRPO。結果？它擊敗了 o4-mini 和 o3。這是它的工作原理（連結到簡歷中的完整博客） 🧵

7.88K