DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Belachelijk dat OpenAI 74,9% claimde op SWE-Bench alleen om te bewijzen dat ze boven Opus 4,1's 74,5% zaten... Door het op 477 problemen te draaien in plaats van de volledige 500. Hun systeemkaart zegt ook maar 74%.

Bron:

En ja, ik weet dat ze altijd over de 477 noemer hebben gerapporteerd, maar dat is NIET "SWE-Bench geverifieerd", dat is een totaal andere maatstaf, het is "OpenAI's subset van SWE Bench Verified" en dat nummer kan niet worden vergeleken.

23,1K

Boven

Positie

Favorieten

Populair op onchain

Populair op X

Recente topfinanciering

Belangrijkste