لقد قمنا بتقييم GPT-5 قبل الإصدار. GPT-5 أقل خداعا من o3 على evals. يذكر GPT-5 أنه يتم تقييمه في 10-20٪ من evals لدينا ونجد دليلا ضعيفا على أن هذا يؤثر على معدل المخططات (على سبيل المثال ، "هذا مصيدة محاذاة الذكاء الاصطناعي الكلاسيكية").
‏‎12.8‏K