GPT-5 系統卡能力評估反應線程。第一個觀察:在所有不屬於 SWEBench 的編碼評估中幾乎沒有改進。
非常酷的新基準
有趣的是,這個模型不僅知道它在進行評估,還知道具體的任務和執行它的組織。
37.76K