Системна карта GPT-5 здатна викликати реакцію нитка. Перше спостереження: ~немає покращення на всіх рівнях кодування, які не є SWEBench
Дуже крутий новий бенчмарк
Цікаво, що модель знала не просто те, що вона в евалі, а точне завдання та організацію її проведення
37,77K