страдаете от усталости от чат-ботов? разочарованы тем, что сингулярность была отменена? ищете что-то новое, что даст вам надежду? вот мой бредовый, но "эй, это вроде имеет смысл" план по созданию суперинтеллекта в моей маленькой независимой исследовательской лаборатории. (замечание: я готов пожертвовать точностью ради педагогики) сначала немного предыстории: Мне 33 года, и я провел последние 22 года, программируя. За это время я задавал много вопросов о природе вычислений и накопил довольно... странные... идеи. Несколько лет назад я создал HVM, систему, способную запускать программы на эзотерическом языке под названием "Haskell" на GPU - да, на том самом чипе, который сделал глубокое обучение возможным и зажег этот весь цикл ИИ. Но как Haskell связан с ИИ? Ну, это длинная история. Как могут помнить старшие, тогда то, что мы называли "ИИ", было... другим. Почти 3 десятилетия назад, впервые в истории, компьютер победил чемпиона мира по шахматам, вызвав множество дебатов о AGI и сингулярности - как и сегодня! Система, названная Deep Blue, была очень отличной от моделей, которые у нас есть сегодня. Она не использовала трансформеры. Она вообще не использовала нейронные сети. На самом деле, не было никакой "модели". Это был чистый "символический ИИ", что означало, что это был просто старый алгоритм, который сканировал миллиарды возможных ходов, быстрее и глубже, чем любой человек мог бы, побеждая нас чистой силой. Это вызвало волну многообещающих исследований в области символического ИИ. Эволюционные алгоритмы, графы знаний, автоматическое доказательство теорем, SAT/SMT решатели, решатели ограничений, экспертные системы и многое другое. К сожалению, со временем этот подход натолкнулся на стену. Ручные правила не масштабировались, символические системы не могли *учиться* динамически, и пузырь лопнул. Началась новая зима ИИ. Только через несколько лет любопытное сочетание факторов изменило все. Исследователи вспомнили старую идею - нейронные сети - но на этот раз у них было что-то новое: GPU. Эти графические чипы, изначально созданные для рендеринга видеоигр, оказались идеальными для массовых матричных умножений, которые требовали нейронные сети. Вдруг то, что занимало недели, можно было сделать за часы. Глубокое обучение взорвалось, и вот мы здесь сегодня, с трансформерами, поглощающими мир. Но вот в чем дело: мы перенесли *одну* ветвь ИИ на GPU - коннекционистскую, числовую. Символическая сторона? Она все еще застряла в каменном веке CPU. Haskell - это особый язык, потому что он объединяет язык доказательств (т.е. идиому, которую математики используют для выражения теорем) с языком программирования (т.е. тем, что разработчики используют для создания приложений). Это делает его уникально подходящим для символического рассуждения - именно того типа вычислений, который использовал Deep Blue, но теперь мы можем запускать его массово параллельно на современном оборудовании. (чтобы быть более точным, просто массовая параллельность GPU не единственное, что HVM приносит на стол. Оказывается, это также приводит к *асимптотическим* ускорениям в некоторых случаях. И это ключевая причина верить в наш подход: прошлые символические методы были не только вычислительно голодными. Они были экспоненциально медленными, в алгоритмическом смысле. Неудивительно, что они не работали. У них не было шансов.) Моя тезис проста: теперь, когда я могу запускать Haskell на GPU, и учитывая это асимптотическое ускорение, я в положении воскресить эти старые символические методы ИИ, масштабировать их на порядки величины и посмотреть, что произойдет. Может быть, просто может быть, один из них удивит нас. Наш первый этап уже в движении: мы создали самую быструю программу/синтезатор доказательств в мире, которую я называю SupGen. Или NeoGen. Или QuickGen? Мы выпустим это как обновление нашего языка "Bend", сделав его общедоступным примерно в конце октября. Затем, позже в этом году, мы используем это как основу для новой исследовательской программы, стремящейся к чистой символической архитектуре, которая действительно может учиться на данных и строить обобщения - не через градиентный спуск и обратное распространение, а через логическое рассуждение и синтез программ. Наши первые эксперименты будут очень простыми (не так уж и отличающимися от GPT-2), и основной этап будет заключаться в том, чтобы иметь инструмент "завершения следующего токена", который на 100% свободен от нейронных сетей. Если это сработает, это может стать прорывом за пределы трансформеров и глубокого обучения, потому что это совершенно новый подход, который, скорее всего, избавит от многих ограничений, унаследованных от GPT, которые есть у ИИ сегодня. Не только проблемы токенизации (как R в клубнике), но и фундаментальные проблемы, которые мешают GPT эффективно учиться и обобщать. Бред? Вероятно. Стоит попробовать? Абсолютно. (Теперь угадайте, сколько было сгенерировано ИИ и какую модель я использовал)
25,94K