Ridicol că OpenAI a revendicat 74,9% pe SWE-Bench doar pentru a dovedi că au fost peste 74,5% ai Opus 4.1... Rulându-l pe 477 de probleme în loc de 500. Cardul lor de sistem spune doar 74%.
Sursă:
Și da, știu că au raportat întotdeauna numitorul 477, dar acesta NU este "SWE-Bench verificat", este o valoare complet diferită, este "Subsetul OpenAI al SWE Bench Verified" și acel număr nu poate fi comparat
23,1K