Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Jürgen Schmidhuber

Изобрел принципы метаобучения (1987), GAN (1990), трансформеров (1991), very deep learning (1991) и т.д. Наш искусственный интеллект используется миллиарды раз каждый день.

Кто изобрел сверточные нейронные сети (CNN)? 1969: Фукушима разработал ReLU, относящиеся к CNN [2]. 1979: Фукушима создал базовую архитектуру CNN с сверточными слоями и слоями понижения размерности [1]. Вычисления были в 100 раз дороже, чем в 1989 году, и в миллиард раз дороже, чем сегодня. 1987: Уайбел применил обратное распространение ошибки Линнаинмаа 1970 года [3] к TDNN с разделением весов и одномерными свертками [4]. 1988: Вэй Чжан и др. применили "современные" CNN с обратным распространением для распознавания символов [5]. Все вышеперечисленное было опубликовано в Японии с 1979 по 1988 год. 1989: Лекун и др. снова применили CNN для распознавания символов (почтовых индексов) [6,10]. 1990-93: Понижение размерности Фукушима на основе пространственного усреднения [1] было заменено на макс-пулинг для 1-D TDNN (Ямагути и др.) [7] и 2-D CNN (Венг и др.) [8]. 2011: Much later, моя команда с Дэном Сиресаном сделала макс-пулинг CNN действительно быстрыми на графических процессорах NVIDIA. В 2011 году DanNet достиг первого суперчеловеческого результата в распознавании образов [9]. В течение некоторого времени он пользовался монополией: с мая 2011 года по сентябрь 2012 года DanNet выиграл каждый конкурс по распознаванию изображений, в которых участвовал, 4 из них подряд. Тем не менее, это в основном касалось инженерии и масштабирования основных идей предыдущего тысячелетия, извлекая выгоду из гораздо более быстрого оборудования. Некоторые "эксперты в области ИИ" утверждают, что "заставить CNN работать" (например, [5,6,9]) было так же важно, как и их изобретение. Но "заставить их работать" в значительной степени зависело от того, было ли ваше лабораторное оборудование достаточно богатым, чтобы купить последние компьютеры, необходимые для масштабирования оригинальной работы. Это то же самое, что и сегодня. Базовые исследования против инженерии/разработки - R против D в R&D. СПИСОК ЛИТЕРАТУРЫ [1] K. Fukushima (1979). Модель нейронной сети для механизма распознавания образов, не подверженного смещению в позиции — Неокогнитрон. Трансакции IECE, том. J62-A, № 10, стр. 658-665, 1979. [2] K. Fukushima (1969). Извлечение визуальных признаков с помощью многослойной сети аналоговых пороговых элементов. IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322-333. Эта работа представила исправленные линейные единицы (ReLU), которые теперь используются во многих CNN. [3] S. Linnainmaa (1970). Магистерская диссертация, Унив. Хельсинки, 1970. Первое издание о "современном" обратном распространении, также известном как обратный режим автоматического дифференцирования. (См. известный обзор обратного распространения Шмидхубера: "Кто изобрел обратное распространение?") [4] A. Waibel. Распознавание фонем с использованием нейронных сетей с задержкой. Встреча IEICE, Токио, Япония, 1987. Обратное распространение для TDNN с разделением весов и одномерными свертками. [5] W. Zhang, J. Tanida, K. Itoh, Y. Ichioka. Нейронная сеть для распознавания образов, инвариантных к смещению, и ее оптическая архитектура. Труды ежегодной конференции Японского общества прикладной физики, 1988. Первая CNN, обученная с помощью обратного распространения, с приложениями к распознаванию английских символов. [6] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, L. D. Jackel: Обратное распространение, примененное к распознаванию рукописных почтовых индексов, Нейронные вычисления, 1(4):541-551, 1989. См. также раздел 3 [10]. [7] K. Yamaguchi, K. Sakamoto, A. Kenji, T. Akabane, Y. Fujimoto. Нейронная сеть для распознавания изолированных слов, независимых от говорящего. Первая международная конференция по обработке разговорной речи (ICSLP 90), Кобе, Япония, ноябрь 1990. Одномерный сверточный TDNN с использованием макс-пулинга вместо пространственного усреднения Фукушима [1]. [8] Weng, J., Ahuja, N., и Huang, T. S. (1993). Обучение распознаванию и сегментации 3-D объектов из 2-D изображений. Труды 4-й международной конференции по компьютерному зрению, Берлин, стр. 121-128. Двумерная CNN, слои понижения размерности которой используют макс-пулинг (который стал очень популярным) вместо пространственного усреднения Фукушима [1]. [9] В 2011 году быстрая и глубокая CNN на основе GPU под названием DanNet (7+ слоев) достигла первого суперчеловеческого результата в конкурсе по компьютерному зрению. См. обзор: "2011: DanNet запускает революцию глубоких CNN." [10] Как 3 лауреата премии Тьюринга перепубликовали ключевые методы и идеи, создатели которых не были указаны. Технический отчет IDSIA-23-23, Швейцарская лаборатория ИИ IDSIA, 14 декабря 2023 года. См. также видео на YouTube для церемонии вручения премии Бауэра 2021 года: Дж. Шмидхубер восхваляет Кунихико Фукушиму.

AGI? Однажды, но не сейчас. Единственный ИИ, который хорошо работает в данный момент, это тот, что за экраном [12-17]. Но пройти тест Тьюринга [9] за экраном проще, чем создать Реальный ИИ для реальных роботов в реальном мире. Ни один современный робот на базе ИИ не может быть сертифицирован как сантехник [13-17]. Поэтому тест Тьюринга не является хорошей мерой интеллекта (и IQ тоже). И AGI без освоения физического мира — это не AGI. Вот почему я создал TUM CogBotLab для обучения роботов в 2004 году [5], соучредил компанию для ИИ в физическом мире в 2014 году [6] и имел команды в TUM, IDSIA и теперь KAUST, работающие над роботами-младенцами [4,10-11,18]. Такие мягкие роботы не просто рабски имитируют людей и не работают, просто загружая интернет, как LLMs/VLMs. Нет. Вместо этого они используют принципы Искусственного Любопытства для улучшения своих нейронных Мировых Моделей (два термина, которые я использовал еще в 1990 году [1-4]). Эти роботы работают с множеством сенсоров, но только с слабыми актуаторами, так что они не могут легко навредить себе [18], когда собирают полезные данные, придумывая и проводя собственные эксперименты. Замечательно, что с 1970-х годов многие высмеивали мою старую цель создать самоулучшающийся AGI, умнее меня самого, а затем уйти на пенсию. Однако недавно многие наконец начали воспринимать это всерьез, и теперь некоторые из них внезапно стали СЛИШКОМ оптимистичными. Эти люди часто блаженно не осознают оставшихся задач, которые нам нужно решить, чтобы достичь Реального ИИ. Мое выступление на TED в 2024 году [15] резюмирует некоторые из них. ССЫЛКИ (легко найти в интернете): [1] J. Schmidhuber. Making the world differentiable: On using fully recurrent self-supervised neural networks (NNs) for dynamic reinforcement learning and planning in non-stationary environments. TR FKI-126-90, TUM, Feb 1990, revised Nov 1990. This paper also introduced artificial curiosity and intrinsic motivation through generative adversarial networks where a generator NN is fighting a predictor NN in a minimax game. [2] J. S. A possibility for implementing curiosity and boredom in model-building neural controllers. In J. A. Meyer and S. W. Wilson, editors, Proc. of the International Conference on Simulation of Adaptive Behavior: From Animals to Animats, pages 222-227. MIT Press/Bradford Books, 1991. Based on [1]. [3] J.S. AI Blog (2020). 1990: Planning & Reinforcement Learning with Recurrent World Models and Artificial Curiosity. Summarising aspects of [1][2] and lots of later papers including [7][8]. [4] J.S. AI Blog (2021): Artificial Curiosity & Creativity Since 1990. Summarising aspects of [1][2] and lots of later papers including [7][8]. [5] J.S. TU Munich CogBotLab for learning robots (2004-2009) [6] NNAISENSE, founded in 2014, for AI in the physical world [7] J.S. (2015). On Learning to Think: Algorithmic Information Theory for Novel Combinations of Reinforcement Learning (RL) Controllers and Recurrent Neural World Models. arXiv 1210.0118. Sec. 5.3 describes an RL prompt engineer which learns to query its model for abstract reasoning and planning and decision making. Today this is called "chain of thought." [8] J.S. (2018). One Big Net For Everything. arXiv 1802.08864. See also patent US11853886B2 and my DeepSeek tweet: DeepSeek uses elements of the 2015 reinforcement learning prompt engineer [7] and its 2018 refinement [8] which collapses the RL machine and world model of [7] into a single net. This uses my neural net distillation procedure of 1991: a distilled chain of thought system. [9] J.S. Turing Oversold. It's not Turing's fault, though. AI Blog (2021, was #1 on Hacker News) [10] J.S. Intelligente Roboter werden vom Leben fasziniert sein. (Intelligent robots will be fascinated by life.) F.A.Z., 2015 [11] J.S. at Falling Walls: The Past, Present and Future of Artificial Intelligence. Scientific American, Observations, 2017. [12] J.S. KI ist eine Riesenchance für Deutschland. (AI is a huge chance for Germany.) F.A.Z., 2018 [13] H. Jones. J.S. Says His Life's Work Won't Lead To Dystopia. Forbes Magazine, 2023. [14] Interview with J.S. Jazzyear, Shanghai, 2024. [15] J.S. TED talk at TED AI Vienna (2024): Why 2042 will be a big year for AI. See the attached video clip. [16] J.S. Baut den KI-gesteuerten Allzweckroboter! (Build the AI-controlled all-purpose robot!) F.A.Z., 2024 [17] J.S. 1995-2025: The Decline of Germany & Japan vs US & China. Can All-Purpose Robots Fuel a Comeback? AI Blog, Jan 2025, based on [16]. [18] M. Alhakami, D. R. Ashley, J. Dunham, Y. Dai, F. Faccio, E. Feron, J. Schmidhuber. Towards an Extremely Robust Baby Robot With Rich Interaction Ability for Advanced Machine Learning Algorithms. Preprint arxiv 2404.08093, 2024.

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные