DApp Store | Centrum Web3 pro události a hry

Populární témata

Směšné, že OpenAI si nárokovala 74.9 % na SWE-Bench jen proto, aby dokázala, že jsou nad 74.5 % Opus 4.1... Tím, že ji spustíte na 477 problémech místo plných 500. Jejich systémová karta také říká pouze 74%.

Zdroj:

A ano, vím, že vždy uváděli jmenovatele 477, ale to NENÍ "SWE-Bench verified", to je úplně jiná metrika, je to "OpenAI's subset of SWE Bench Verified" a toto číslo nelze srovnávat

23,14K

Top

Hodnocení

Oblíbené

Co je v trendu on-chain

Populární na X

Nejvyšší finanční vklady v poslední době

Nejpozoruhodnější