Fil de réactions sur l'évaluation des capacités de la carte système GPT-5. Première observation : ~aucune amélioration sur tous les évaluations de codage qui ne sont pas SWEBench.
Très cool nouvelle référence
Intéressant que le modèle sache non seulement qu'il était en évaluation, mais aussi la tâche exacte et l'organisation qui l'exécute.
37,77K