Présentation des jeux LLM 🕹️ par Ramp Labs Nous opposons GPT-5, Grok-4, o3, Gemini-2.5 et d'autres modèles les uns aux autres pour jouer à Puissance 4. GPT-5 a écrasé tous les modèles – remportant 14/14 jeux. Au fur et à mesure que les jeux avancent, les modèles réfléchissent beaucoup plus longtemps. Regardez les rediffusions complètes des jeux ci-dessous.
27,08K