Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Latterlig at OpenAI hevdet 74.9 % på SWE-Bench bare for å bevise at de var over Opus 4.1s 74.5 %...
Ved å kjøre den på 477 problemer i stedet for hele 500.
Systemkortet deres sier bare 74 % også.

Kilde:
Og ja, jeg vet at de alltid har rapportert om 477-nevneren, men det er IKKE "SWE-Bench verified", det er en helt annen beregning, det er "OpenAIs undergruppe av SWE Bench Verified" og det tallet kan ikke sammenlignes
23,1K
Topp
Rangering
Favoritter