Смешно, что OpenAI заявила 74,9% на SWE-Bench, просто чтобы доказать, что они выше 74,5% Opus 4.1... Запустив его на 477 задачах вместо полных 500. Их системная карта также говорит только 74%.
Источник:
И да, я знаю, что они всегда сообщали о знаменателе 477, но это НЕ "SWE-Bench проверено", это совершенно другая метрика, это "подмножество OpenAI SWE Bench Verified", и это число нельзя сравнивать.
23,12K