قدرة بطاقة نظام GPT-5 على التفاعلات الخيط. الملاحظة الأولى: ~ لا يوجد تحسن في جميع وحدات الترميز التي ليست SWEBench
معيار جديد رائع جدا
من المثير للاهتمام أن النموذج لم يكن يعرف فقط أنه كان في eval ، ولكن المهمة الدقيقة والمنظمة التي تديرها
‏‎37.77‏K