Latterlig at OpenAI hevdet 74.9 % på SWE-Bench bare for å bevise at de var over Opus 4.1s 74.5 %... Ved å kjøre den på 477 problemer i stedet for hele 500. Systemkortet deres sier bare 74 % også.
Kilde:
Og ja, jeg vet at de alltid har rapportert om 477-nevneren, men det er IKKE "SWE-Bench verified", det er en helt annen beregning, det er "OpenAIs undergruppe av SWE Bench Verified" og det tallet kan ikke sammenlignes
23,1K