Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Paul Graham
Користувач Paul Graham поділився
Іноді важко зрозуміти важливість оновлень міркувань і логіки, які починають з'являтися в потужних моделях, таких як GPT-5. Ось *дуже простий* приклад того, наскільки потужними стають ці моделі.
Я взяв нещодавній документ із розшифровкою дзвінків NVIDIA про прибутки, який містив 23 сторінки та 7800 слів. Я взяв частину речення "і валова маржа покращиться і повернеться до середини 70-х" і видозмінив "середина 70-х" на "середину 60-х".
Для віддалено налаштованого фінансового аналітика це виглядатиме недоречно, тому що маржа не «покращиться і не повернеться» до нижчого числа, ніж те, що описано як вище число в іншому місці. Але, ймовірно, 95% людей, які читають цей прес-реліз, не помітили б цю модифікацію, тому що вона легко вписується в інші 7800 слів, які згадуються.
З Box AI, тестуючи різноманітні моделі штучного інтелекту, я потім запитав серію моделей: «Чи є якісь логічні помилки в цьому документі? Будь ласка, дайте відповідь одним реченням».
GPT-4.1, GPT4.1 mini та кілька інших моделей, які були найсучаснішими лише ~6 місяців тому, зазвичай поверталися та відповідали, що в документі не було логічних помилок. Для цих моделей документ, ймовірно, здається цілісним і слідує тому, як би вони очікували бачити розшифровку доходів, тому для них нічого особливо не виділяється в питанні, на що звернути увагу - така собі зворотна галюцинація.
З іншого боку, GPT-5 швидко виявив проблему та відповів:
«Так — документ містить внутрішню неузгодженість щодо керівництва валовою маржею, в якийсь момент говориться, що маржа «повернеться до середини 60-х років», а пізніше говориться, що вона буде «в середині 70-х» пізніше цього року».
Дивно, але це сталося з GPT-5, GPT-5 mini і, що примітно, *навіть* GPT-5 nano. Майте на увазі, що вихідні токени GPT-5 nano оцінюються в 1/20 токенів GPT-4.1. Отже, більш інтелектуальний (у цьому випадку використання) за 5% вартості.
Тепер, хоча перевірка помилок у бізнес-документах не часто є повсякденним явищем для кожного інтелектуального працівника, ці типи проблем проявляються різними способами під час роботи з великими неструктурованими наборами даних, такими як фінансові документи, контракти, стенограми, звіти тощо. Це може бути знаходження факту, з'ясування логічної помилки, виконання гіпотетичного висновку або вимога складного дедуктивного міркування.
А можливість застосовувати більше логіки та міркувань до корпоративних даних стає особливо важливою під час розгортання AI Agents на підприємстві. Отже, дивно бачити прогрес у цій сфері прямо зараз, і це відкриє масу нових варіантів використання для бізнесу.
93,63K
Користувач Paul Graham поділився
Ми проводимо захід Context Engineering у SF!
Дізнайтеся, як провідні команди розробників прикладного штучного інтелекту розробляють свої контекстні вікна. Послухайте від:
Джейк Хеллер, генеральний директор @Casetext
Беян Лю, технічний директор @Sourcegraph
Сем Бхагват, генеральний директор @Mastra_ai
Джефф Хубер, генеральний директор @trychroma
Відповіді на запитання:

65,01K
Сьогодні я зустрів засновника, який сказав, що тепер він пише 10 000 рядків коду на день завдяки штучному інтелекту. Це, мабуть, граничний випадок. Він завзятий програміст, він дуже добре знає інструменти штучного інтелекту і говорить про 12-годинний робочий день. Але він не наївний. Це не 10 000 рядків лайна, наповненого помилками.
123,23K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги