DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Ridicol că OpenAI a revendicat 74,9% pe SWE-Bench doar pentru a dovedi că au fost peste 74,5% ai Opus 4.1... Rulându-l pe 477 de probleme în loc de 500. Cardul lor de sistem spune doar 74%.

Sursă:

Și da, știu că au raportat întotdeauna numitorul 477, dar acesta NU este "SWE-Bench verificat", este o valoare complet diferită, este "Subsetul OpenAI al SWE Bench Verified" și acel număr nu poate fi comparat

23,1K

Limită superioară

Clasament

Favorite

La modă pe lanț

La modă pe X

Principalele finanțări recente

Cele mai importante