Магазин DApp | Web3-центр мероприятий и игр | Кошелек OKX

Актуальные темы

Смешно, что OpenAI заявила 74,9% на SWE-Bench, просто чтобы доказать, что они выше 74,5% Opus 4.1... Запустив его на 477 задачах вместо полных 500. Их системная карта также говорит только 74%.

Источник:

И да, я знаю, что они всегда сообщали о знаменателе 477, но это НЕ "SWE-Bench проверено", это совершенно другая метрика, это "подмножество OpenAI SWE Bench Verified", и это число нельзя сравнивать.

23,12K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные