DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Ridiculous that OpenAI claimed 74.9% on SWE-Bench just to prove they were above Opus 4.1’s 74.5%… By running it on 477 problems instead of the full 500. Their system card only says 74% too.

Fonte:

E sì, so che hanno sempre riportato il denominatore 477, ma quello NON è "verificato da SWE-Bench", è un'unità di misura completamente diversa, è "il sottoinsieme di OpenAI verificato da SWE Bench" e quel numero non può essere confrontato.

23,12K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari