Иногда трудно понять значимость обновлений логики и рассуждений, которые начинают появляться в мощных моделях, таких как GPT-5. Вот *очень простой* пример того, насколько мощными становятся эти модели. Я взял недавний транскрипт звонка по доходам NVIDIA, который составил 23 страницы и содержал 7800 слов. Я взял часть предложения "и валовая маржа улучшится и вернется к средним 70-м" и изменил "средние 70-е" на "средние 60-е". Для финансового аналитика, который следит за ситуацией, это выглядело бы неуместно, потому что маржи не могли бы "улучшиться и вернуться" к более низкому числу, чем то, которое описано как более высокое в другом месте. Но, вероятно, 95% людей, читающих этот пресс-релиз, не заметили бы изменения, потому что оно легко вписывается в другие 7800 слов, которые упоминаются. С помощью Box AI, тестируя различные модели ИИ, я затем задал ряду моделей вопрос: "Есть ли в этом документе логические ошибки? Пожалуйста, дайте одно предложение в ответ." GPT-4.1, GPT-4.1 mini и несколько других моделей, которые были на переднем крае всего ~6 месяцев назад, в целом ответили, что в документе нет логических ошибок. Для этих моделей документ, вероятно, кажется последовательным и соответствует тому, как они ожидают видеть транскрипт доходов, поэтому ничего действительно не выделяется для них, на что стоит обратить внимание - своего рода обратная галлюцинация. GPT-5, с другой стороны, быстро обнаружил проблему и ответил: "Да — документ содержит внутреннее несоответствие в отношении прогнозов валовой маржи, в один момент говорится, что маржи "вернутся к средним 60-м", а позже говорится, что они будут "в средних 70-х" позже в этом году." Удивительно, но это произошло с GPT-5, GPT-5 mini и, что примечательно, *даже* с GPT-5 nano. Имейте в виду, что токены вывода GPT-5 nano стоят 1/20 от стоимости токенов GPT-4.1. Так что, более интеллектуально (в этом случае) за 5% стоимости. Теперь, хотя проверка ошибок в бизнес-документах не является ежедневным занятием для каждого работника знаний, такие проблемы возникают различными способами при работе с большими неструктурированными наборами данных, такими как финансовые документы, контракты, транскрипты, отчеты и многое другое. Это может быть нахождение факта, выявление логической ошибки, проведение гипотетического анализа или требование сложного дедуктивного рассуждения. И возможность применять больше логики и рассуждений к корпоративным данным становится особенно критичной при развертывании ИИ-агентов в компании. Поэтому удивительно видеть достижения в этой области прямо сейчас, и это откроет множество новых случаев использования для бизнеса.
129,49K