Cela a toujours été le benchmark le plus informatif concernant la trajectoire à moyen terme des LLM : quelles sont les expériences des experts du domaine en essayant d'appliquer ces modèles à des problèmes relativement complexes ? Si vous avez suivi cette question, rien à propos de GPT-5 ne devrait vous surprendre.
674