Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Смешно, что OpenAI заявила 74,9% на SWE-Bench, просто чтобы доказать, что они выше 74,5% Opus 4.1...
Запустив его на 477 задачах вместо полных 500.
Их системная карта также говорит только 74%.

Источник:
И да, я знаю, что они всегда сообщали о знаменателе 477, но это НЕ "SWE-Bench проверено", это совершенно другая метрика, это "подмножество OpenAI SWE Bench Verified", и это число нельзя сравнивать.
23,12K
Топ
Рейтинг
Избранное