Belachelijk dat OpenAI 74,9% claimde op SWE-Bench alleen om te bewijzen dat ze boven Opus 4,1's 74,5% zaten... Door het op 477 problemen te draaien in plaats van de volledige 500. Hun systeemkaart zegt ook maar 74%.
Bron:
En ja, ik weet dat ze altijd over de 477 noemer hebben gerapporteerd, maar dat is NIET "SWE-Bench geverifieerd", dat is een totaal andere maatstaf, het is "OpenAI's subset van SWE Bench Verified" en dat nummer kan niet worden vergeleken.
23,1K