Hilo de reacciones de evaluación de capacidades de la tarjeta del sistema GPT-5. Primera observación: ~sin mejora en todas las evaluaciones de codificación que no son SWEBench.
Muy buen nuevo estándar
Interesante que el modelo supiera no solo que estaba en una evaluación, sino la tarea exacta y la organización que la estaba ejecutando.
37.76K