Іноді важко зрозуміти важливість оновлень міркувань і логіки, які починають з'являтися в потужних моделях, таких як GPT-5. Ось *дуже простий* приклад того, наскільки потужними стають ці моделі. Я взяв нещодавній документ із розшифровкою дзвінків NVIDIA про прибутки, який містив 23 сторінки та 7800 слів. Я взяв частину речення "і валова маржа покращиться і повернеться до середини 70-х" і видозмінив "середина 70-х" на "середину 60-х". Для віддалено налаштованого фінансового аналітика це виглядатиме недоречно, тому що маржа не «покращиться і не повернеться» до нижчого числа, ніж те, що описано як вище число в іншому місці. Але, ймовірно, 95% людей, які читають цей прес-реліз, не помітили б цю модифікацію, тому що вона легко вписується в інші 7800 слів, які згадуються. З Box AI, тестуючи різноманітні моделі штучного інтелекту, я потім запитав серію моделей: «Чи є якісь логічні помилки в цьому документі? Будь ласка, дайте відповідь одним реченням». GPT-4.1, GPT4.1 mini та кілька інших моделей, які були найсучаснішими лише ~6 місяців тому, зазвичай поверталися та відповідали, що в документі не було логічних помилок. Для цих моделей документ, ймовірно, здається цілісним і слідує тому, як би вони очікували бачити розшифровку доходів, тому для них нічого особливо не виділяється в питанні, на що звернути увагу - така собі зворотна галюцинація. З іншого боку, GPT-5 швидко виявив проблему та відповів: «Так — документ містить внутрішню неузгодженість щодо керівництва валовою маржею, в якийсь момент говориться, що маржа «повернеться до середини 60-х років», а пізніше говориться, що вона буде «в середині 70-х» пізніше цього року». Дивно, але це сталося з GPT-5, GPT-5 mini і, що примітно, *навіть* GPT-5 nano. Майте на увазі, що вихідні токени GPT-5 nano оцінюються в 1/20 токенів GPT-4.1. Отже, більш інтелектуальний (у цьому випадку використання) за 5% вартості. Тепер, хоча перевірка помилок у бізнес-документах не часто є повсякденним явищем для кожного інтелектуального працівника, ці типи проблем проявляються різними способами під час роботи з великими неструктурованими наборами даних, такими як фінансові документи, контракти, стенограми, звіти тощо. Це може бути знаходження факту, з'ясування логічної помилки, виконання гіпотетичного висновку або вимога складного дедуктивного міркування. А можливість застосовувати більше логіки та міркувань до корпоративних даних стає особливо важливою під час розгортання AI Agents на підприємстві. Отже, дивно бачити прогрес у цій сфері прямо зараз, і це відкриє масу нових варіантів використання для бізнесу.
105,99K