Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridicol că OpenAI a revendicat 74,9% pe SWE-Bench doar pentru a dovedi că au fost peste 74,5% ai Opus 4.1...
Rulându-l pe 477 de probleme în loc de 500.
Cardul lor de sistem spune doar 74%.

Sursă:
Și da, știu că au raportat întotdeauna numitorul 477, dar acesta NU este "SWE-Bench verificat", este o valoare complet diferită, este "Subsetul OpenAI al SWE Bench Verified" și acel număr nu poate fi comparat
23,1K
Limită superioară
Clasament
Favorite