Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Es ridículo que OpenAI afirmara un 74.9% en SWE-Bench solo para demostrar que estaban por encima del 74.5% de Opus 4.1...
Ejecutándolo en 477 problemas en lugar de los 500 completos.
Su tarjeta del sistema también dice solo 74%.

Fuente:
Y sí, sé que siempre han informado sobre el denominador 477, pero eso NO es "verificado por SWE-Bench", es una métrica completamente diferente, es "el subconjunto de OpenAI de SWE Bench Verificado" y ese número no se puede comparar.
23,12K
Parte superior
Clasificación
Favoritos