Оценка возможностей системы GPT-5. Первая наблюдение: ~нет улучшений по всем оценкам кода, которые не являются SWEBench.
Очень классный новый эталон
Интересно, что модель знала не только о том, что она находится в оценке, но и о конкретной задаче и организации, которая её проводит.
37,76K