1/ コードベース固有の RL はコード LLM のフロンティアを押し広げることができますか? @cgftlabsでは、カバレッジガイド付きGRPOを使用して、単体テスト作成のために、クライアントの内部コードベースでQwen-2.5-7BをRLチューンするのを支援しました。その結果は?o4-mini & o3 を上回ります。仕組みは次のとおりです (バイオのブログ全文へのリンク) 🧵
7.89K