GPT-5 システム カード機能は、反応スレッドを評価します。最初の観察:~SWEBench以外のすべてのコーディング評価に改善はありません
非常にクールな新しいベンチマーク
興味深いのは、モデルが評価中であることだけでなく、それを実行する正確なタスクと組織も認識していたことです
37.76K