Směšné, že OpenAI si nárokovala 74.9 % na SWE-Bench jen proto, aby dokázala, že jsou nad 74.5 % Opus 4.1... Tím, že ji spustíte na 477 problémech místo plných 500. Jejich systémová karta také říká pouze 74%.
Zdroj:
A ano, vím, že vždy uváděli jmenovatele 477, ale to NENÍ "SWE-Bench verified", to je úplně jiná metrika, je to "OpenAI's subset of SWE Bench Verified" a toto číslo nelze srovnávat
23,14K