Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Смішно, що OpenAI заявила 74,9% на SWE-Bench лише для того, щоб довести, що вони перевищили 74,5% у Opus 4.1... Запустивши його на 477 проблем замість повних 500. На їхній системній картці також написано лише 74%.

Джерело:

І так, я знаю, що вони завжди повідомляли про знаменник 477, але це НЕ «SWE-Bench verified», це зовсім інша метрика, це «підмножина SWE Bench Verified від OpenAI», і це число не можна порівнювати

23,12K

Найкращі

Рейтинг

Вибране

Актуальне ончейн

Популярні в X

Нещодавнє найкраще фінансування

Найбільш варте уваги