Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jürgen Schmidhuber
Изобрел принципы метаобучения (1987), GAN (1990), трансформеров (1991), very deep learning (1991) и т.д. Наш искусственный интеллект используется миллиарды раз каждый день.
Кто изобрел сверточные нейронные сети (CNN)?
1969: Фукушима разработал ReLU, относящиеся к CNN [2].
1979: Фукушима создал базовую архитектуру CNN с сверточными слоями и слоями понижения размерности [1]. Вычисления были в 100 раз дороже, чем в 1989 году, и в миллиард раз дороже, чем сегодня.
1987: Уайбел применил обратное распространение ошибки Линнаинмаа 1970 года [3] к TDNN с разделением весов и одномерными свертками [4].
1988: Вэй Чжан и др. применили "современные" CNN с обратным распространением для распознавания символов [5].
Все вышеперечисленное было опубликовано в Японии с 1979 по 1988 год.
1989: Лекун и др. снова применили CNN для распознавания символов (почтовых индексов) [6,10].
1990-93: Понижение размерности Фукушима на основе пространственного усреднения [1] было заменено на макс-пулинг для 1-D TDNN (Ямагути и др.) [7] и 2-D CNN (Венг и др.) [8].
2011: Much later, моя команда с Дэном Сиресаном сделала макс-пулинг CNN действительно быстрыми на графических процессорах NVIDIA. В 2011 году DanNet достиг первого суперчеловеческого результата в распознавании образов [9]. В течение некоторого времени он пользовался монополией: с мая 2011 года по сентябрь 2012 года DanNet выиграл каждый конкурс по распознаванию изображений, в которых участвовал, 4 из них подряд. Тем не менее, это в основном касалось инженерии и масштабирования основных идей предыдущего тысячелетия, извлекая выгоду из гораздо более быстрого оборудования.
Некоторые "эксперты в области ИИ" утверждают, что "заставить CNN работать" (например, [5,6,9]) было так же важно, как и их изобретение. Но "заставить их работать" в значительной степени зависело от того, было ли ваше лабораторное оборудование достаточно богатым, чтобы купить последние компьютеры, необходимые для масштабирования оригинальной работы. Это то же самое, что и сегодня. Базовые исследования против инженерии/разработки - R против D в R&D.
СПИСОК ЛИТЕРАТУРЫ
[1] K. Fukushima (1979). Модель нейронной сети для механизма распознавания образов, не подверженного смещению в позиции — Неокогнитрон. Трансакции IECE, том. J62-A, № 10, стр. 658-665, 1979.
[2] K. Fukushima (1969). Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Эта работа представила исправленные линейные единицы (ReLU), которые теперь используются во многих CNN.
[3] S. Linnainmaa (1970). Магистерская диссертация, Унив. Хельсинки, 1970. Первое издание о "современном" обратном распространении, также известном как обратный режим автоматического дифференцирования. (См. известный обзор обратного распространения Шмидхубера: "Кто изобрел обратное распространение?")
[4] A. Waibel. Распознавание фонем с использованием нейронных сетей с задержкой. Встреча IEICE, Токио, Япония, 1987. Обратное распространение для TDNN с разделением весов и одномерными свертками.
[5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Нейронная сеть для распознавания образов, инвариантных к смещению, и ее оптическая архитектура. Труды ежегодной конференции Японского общества прикладной физики, 1988. Первая CNN, обученная с помощью обратного распространения, с приложениями к распознаванию английских символов.
[6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Обратное распространение, примененное к распознаванию рукописных почтовых индексов, Нейронные вычисления, 1(4):541-551, 1989. См. также раздел 3 [10].
[7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Нейронная сеть для распознавания изолированных слов, независимых от говорящего. Первая международная конференция по обработке разговорной речи (ICSLP 90), Кобе, Япония, ноябрь 1990. Одномерный сверточный TDNN с использованием макс-пулинга вместо пространственного усреднения Фукушима [1].
[8] Weng, J., Ahuja, N., и Huang, T. S. (1993). Обучение распознаванию и сегментации 3-D объектов из 2-D изображений. Труды 4-й международной конференции по компьютерному зрению, Берлин, стр. 121-128. Двумерная CNN, слои понижения размерности которой используют макс-пулинг (который стал очень популярным) вместо пространственного усреднения Фукушима [1].
[9] В 2011 году быстрая и глубокая CNN на основе GPU под названием DanNet (7+ слоев) достигла первого суперчеловеческого результата в конкурсе по компьютерному зрению. См. обзор: "2011: DanNet запускает революцию глубоких CNN."
[10] Как 3 лауреата премии Тьюринга перепубликовали ключевые методы и идеи, создатели которых не были указаны. Технический отчет IDSIA-23-23, Швейцарская лаборатория ИИ IDSIA, 14 декабря 2023 года. См. также видео на YouTube для церемонии вручения премии Бауэра 2021 года: Дж. Шмидхубер восхваляет Кунихико Фукушиму.

347,22K
Кто изобрел обратное распространение ошибки (BP)? Его современная версия (также называемая обратным режимом автоматического дифференцирования) была впервые опубликована в 1970 году финским магистрантом Сеппо Линнайнмаа. Предшественник BP был опубликован Генри Дж. Келли в 1960 году. Первое специфическое для нейронных сетей применение BP было описано Полом Вербосом в 1982 году (но не в его диссертации 1974 года, как иногда утверждается).
Некоторые спрашивают: "Разве обратное распространение ошибки не является просто правилом цепочки Лейбница (1676)?" Нет, это эффективный способ применения правила цепочки к большим сетям с дифференцируемыми узлами. (Существуют также многие неэффективные способы сделать это.) Оно не было опубликовано до 1970 года.
Смотрите веб-страницу с обзором обратного распространения ошибки с более подробной информацией:
Смотрите также "Аннотированную историю современного ИИ и глубокого обучения" (2022):

34,72K
Физический ИИ 10 лет назад: робот-ребенок изобретает свои собственные эксперименты для улучшения своей нейронной модели мира
Компелла, Столленга, Люсив, Шмидхубер. Непрерывное приобретение навыков, основанное на любопытстве, из высокоразмерных видеовходов для гуманоидных роботов. Искусственный интеллект, 2015

10,93K
1 десятилетие назад: Инженер по запросам в области обучения с подкреплением в Разделе 5.3 «Обучение мыслить …» [2]. Адаптивная цепочка размышлений! Сеть RL учится запрашивать другую сеть для абстрактного рассуждения и принятия решений. Выходя за пределы Мировой модели 1990 года для планирования с миллисекундной точностью [1].
[2] Дж. Шмидхубер (JS, 2015). «Об обучении мыслить: Алгоритмическая теория информации для новых комбинаций контроллеров RL и рекуррентных нейронных мировых моделей.» ArXiv 1210.0118
[1] JS (1990). “Сделать мир дифференцируемым: о применении полностью рекуррентных самонаблюдающих нейронных сетей для динамического обучения с подкреплением и планирования в нестационарных средах.» TR FKI-126-90, TUM. (Этот отчет также представил искусственное любопытство и внутреннюю мотивацию через генеративные состязательные сети.)

24,2K
10 лет назад, в мае 2015 года, мы опубликовали первые работающие очень глубокие нейронные сети прямого распространения (FNN) на основе градиентов с сотнями слоев (предыдущие FNN имели максимум несколько десятков слоев). Чтобы преодолеть проблему исчезающего градиента, наши Highway Networks использовали остаточные соединения, впервые введенные в 1991 году @HochreiterSepp, чтобы достичь постоянного потока ошибок в рекуррентных нейронных сетях (RNN), управляемых мультипликативными воротами, аналогичными воротам забывания (Gers et al., 1999) нашей очень глубокой LSTM RNN. Highway NNs стали возможны благодаря работе моих бывших аспирантов @rupspace и Клауса Греффа. Установка ворот Highway NN на 1.0 фактически дает нам ResNet, опубликованную через 7 месяцев.
Глубокое обучение — это все о глубине нейронных сетей. LSTM принесли по сути неограниченную глубину в рекуррентные нейронные сети; Highway Nets принесли это в нейронные сети прямого распространения.
20,91K
1991: первая дистилляция нейронной сети [1-3]. Я тогда называл это "коллапсом", а не "дистилляцией".
Ссылки
[1] J. Schmidhuber (1991). Нейронные последовательные чанки. Технический отчет FKI-148-91, Технический университет Мюнхена. Разделы 3.2.2 и 4 посвящены "коллапсу" или "дистилляции" или "сжатию" знаний нейронной сети в другую нейронную сеть.
[2] JS (1992). Обучение сложным, расширенным последовательностям с использованием принципа сжатия истории. Нейронные вычисления, 4(2):234-242, 1992. Основано на [1].
[3] JS (AI Blog, 2021, обновлено в 2025). 1991: Первое очень глубокое обучение с ненадзорной предварительной подготовкой. Первая дистилляция нейронной сети.

16,43K
Все говорят о рекурсивном самоулучшении и машинах Гёделя сейчас и о том, как это приведет к AGI. Какой же это контраст с 15 годами назад! У нас была AGI'2010 в Лугано, и мы председательствовали на AGI'2011 в Google. Основой конференций AGI была математически оптимальная Универсальная ИИ: машина Гёделя 2003 года (и AIXI @mhutter42 - см. его книгу UAI 2005 года и ее недавнее обновление 2024 года (я горжусь тем, что работа Маркуса Хуттера над AIXI была профинансирована моим грантом Швейцарского НФН 2000 года, когда он был постдоком в IDSIA.

57,41K
AGI? Однажды, но не сейчас. Единственный ИИ, который хорошо работает в данный момент, это тот, что за экраном [12-17]. Но пройти тест Тьюринга [9] за экраном проще, чем создать Реальный ИИ для реальных роботов в реальном мире. Ни один современный робот на базе ИИ не может быть сертифицирован как сантехник [13-17]. Поэтому тест Тьюринга не является хорошей мерой интеллекта (и IQ тоже). И AGI без освоения физического мира — это не AGI. Вот почему я создал TUM CogBotLab для обучения роботов в 2004 году [5], соучредил компанию для ИИ в физическом мире в 2014 году [6] и имел команды в TUM, IDSIA и теперь KAUST, работающие над роботами-младенцами [4,10-11,18]. Такие мягкие роботы не просто рабски имитируют людей и не работают, просто загружая интернет, как LLMs/VLMs. Нет. Вместо этого они используют принципы Искусственного Любопытства для улучшения своих нейронных Мировых Моделей (два термина, которые я использовал еще в 1990 году [1-4]). Эти роботы работают с множеством сенсоров, но только с слабыми актуаторами, так что они не могут легко навредить себе [18], когда собирают полезные данные, придумывая и проводя собственные эксперименты.
Замечательно, что с 1970-х годов многие высмеивали мою старую цель создать самоулучшающийся AGI, умнее меня самого, а затем уйти на пенсию. Однако недавно многие наконец начали воспринимать это всерьез, и теперь некоторые из них внезапно стали СЛИШКОМ оптимистичными. Эти люди часто блаженно не осознают оставшихся задач, которые нам нужно решить, чтобы достичь Реального ИИ. Мое выступление на TED в 2024 году [15] резюмирует некоторые из них.
ССЫЛКИ (легко найти в интернете):
[1] J. Schmidhuber. Making the world differentiable: On using fully recurrent self-supervised neural networks (NNs) for dynamic reinforcement learning and planning in non-stationary environments. TR FKI-126-90, TUM, Feb 1990, revised Nov 1990. This paper also introduced artificial curiosity and intrinsic motivation through generative adversarial networks where a generator NN is fighting a predictor NN in a minimax game.
[2] J. S. A possibility for implementing curiosity and boredom in model-building neural controllers. In J. A. Meyer and S. W. Wilson, editors, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats, pages 222-227. MIT Press/Bradford Books, 1991. Based on [1].
[3] J.S. AI Blog (2020). 1990: Planning & Reinforcement Learning with Recurrent World Models and Artificial Curiosity. Summarising aspects of [1][2] and lots of later papers including [7][8].
[4] J.S. AI Blog (2021): Artificial Curiosity & Creativity Since 1990. Summarising aspects of [1][2] and lots of later papers including [7][8].
[5] J.S. TU Munich CogBotLab for learning robots (2004-2009)
[6] NNAISENSE, founded in 2014, for AI in the physical world
[7] J.S. (2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning (RL) Controllers and Recurrent Neural World Models. arXiv 1210.0118. Sec. 5.3 describes an RL prompt engineer which learns to query its model for abstract reasoning and planning and decision making. Today this is called "chain of thought."
[8] J.S. (2018). One Big Net For Everything. arXiv 1802.08864. See also patent US11853886B2 and my DeepSeek tweet: DeepSeek uses elements of the 2015 reinforcement learning prompt engineer [7] and its 2018 refinement [8] which collapses the RL machine and world model of [7] into a single net. This uses my neural net distillation procedure of 1991: a distilled chain of thought system.
[9] J.S. Turing Oversold. It's not Turing's fault, though. AI Blog (2021, was #1 on Hacker News)
[10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Intelligent robots will be fascinated by life.) F.A.Z., 2015
[11] J.S. at Falling Walls: The Past, Present and Future of Artificial Intelligence. Scientific American, Observations, 2017.
[12] J.S. KI ist eine Riesenchance für Deutschland. (AI is a huge chance for Germany.) F.A.Z., 2018
[13] H. Jones. J.S. Says His Life's Work Won't Lead To Dystopia. Forbes Magazine, 2023.
[14] Interview with J.S. Jazzyear, Shanghai, 2024.
[15] J.S. TED talk at TED AI Vienna (2024): Why 2042 will be a big year for AI. See the attached video clip.
[16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Build the AI-controlled all-purpose robot!) F.A.Z., 2024
[17] J.S. 1995-2025: The Decline of Germany & Japan vs US & China. Can All-Purpose Robots Fuel a Comeback? AI Blog, Jan 2025, based on [16].
[18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Towards an Extremely Robust Baby Robot With Rich Interaction Ability for Advanced Machine Learning Algorithms. Preprint arxiv 2404.08093, 2024.
67,51K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные