Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridiculous that OpenAI claimed 74.9% on SWE-Bench just to prove they were above Opus 4.1’s 74.5%…
By running it on 477 problems instead of the full 500.
Their system card only says 74% too.

Fonte:
E sì, so che hanno sempre riportato il denominatore 477, ma quello NON è "verificato da SWE-Bench", è un'unità di misura completamente diversa, è "il sottoinsieme di OpenAI verificato da SWE Bench" e quel numero non può essere confrontato.
23,12K
Principali
Ranking
Preferiti