Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ridículo que a OpenAI tenha reivindicado 74.9% no SWE-Bench apenas para provar que estava acima dos 74.5% do Opus 4.1 ...
Executando-o em 477 problemas em vez dos 500 completos.
Seu cartão de sistema diz apenas 74% também.

Fonte:
E sim, eu sei que eles sempre relataram o denominador 477, mas isso NÃO é "SWE-Bench verificado", é uma métrica totalmente diferente, é "Subconjunto da OpenAI de SWE Bench Verified" e esse número não pode ser comparado
23,14K
Melhores
Classificação
Favoritos