Смішно, що OpenAI заявила 74,9% на SWE-Bench лише для того, щоб довести, що вони перевищили 74,5% у Opus 4.1... Запустивши його на 477 проблем замість повних 500. На їхній системній картці також написано лише 74%.
Джерело:
І так, я знаю, що вони завжди повідомляли про знаменник 477, але це НЕ «SWE-Bench verified», це зовсім інша метрика, це «підмножина SWE Bench Verified від OpenAI», і це число не можна порівнювати
23,12K