DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Es ridículo que OpenAI afirmara un 74.9% en SWE-Bench solo para demostrar que estaban por encima del 74.5% de Opus 4.1... Ejecutándolo en 477 problemas en lugar de los 500 completos. Su tarjeta del sistema también dice solo 74%.

Fuente:

Y sí, sé que siempre han informado sobre el denominador 477, pero eso NO es "verificado por SWE-Bench", es una métrica completamente diferente, es "el subconjunto de OpenAI de SWE Bench Verificado" y ese número no se puede comparar.

23,12K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado