Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Směšné, že OpenAI si nárokovala 74.9 % na SWE-Bench jen proto, aby dokázala, že jsou nad 74.5 % Opus 4.1...
Tím, že ji spustíte na 477 problémech místo plných 500.
Jejich systémová karta také říká pouze 74%.

Zdroj:
A ano, vím, že vždy uváděli jmenovatele 477, ale to NENÍ "SWE-Bench verified", to je úplně jiná metrika, je to "OpenAI's subset of SWE Bench Verified" a toto číslo nelze srovnávat
23,14K
Top
Hodnocení
Oblíbené