DApp Store | Web3 Hub for hendelser og spill

Populære emner

Latterlig at OpenAI hevdet 74.9 % på SWE-Bench bare for å bevise at de var over Opus 4.1s 74.5 %... Ved å kjøre den på 477 problemer i stedet for hele 500. Systemkortet deres sier bare 74 % også.

Kilde:

Og ja, jeg vet at de alltid har rapportert om 477-nevneren, men det er IKKE "SWE-Bench verified", det er en helt annen beregning, det er "OpenAIs undergruppe av SWE Bench Verified" og det tallet kan ikke sammenlignes

23,1K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til