Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Jim Fan

Директор NVIDIA по робототехнике и заслуженный ученый. Соруководитель лаборатории GEAR. Решение физического AGI, по одному двигателю за раз. Стэнфордский доктор философии, 1-й стажер OpenAI.

Vibe Minecraft: многопользовательская, самосогласованная, реальная модель мира в реальном времени, которая позволяет строить что угодно и вызывать любые объекты. Функции инструментов и даже механика игры могут быть запрограммированы на естественном языке, например, "хроно-кирка: возвращает любой блок в предыдущее состояние во времени" и "водопады превращаются в радужный мост, когда мимо проходят единороги". Игроки совместно определяют и манипулируют общим миром. Нейронная симуляция принимает на вход *мультимодальную* системную подсказку: правила игры, png-активы, глобальную карту и пасхалки. Она периодически сохраняет состояния игры в виде последовательности латентных векторов, которые могут быть загружены обратно в контекст, при необходимости с чередующимися "текстами-руководствами" для облегчения редактирования. У каждого игрока есть свой явный json-статус (здоровье, инвентарь, 3D-координаты), а также неявные "векторы игрока", которые фиксируют историю взаимодействия более высокого порядка. Администраторы игры могут создать многомир Minecraft, потому что латенты совместимы с разных серверов. Каждый мир может бесшовно пересекаться с другим, чтобы за считанные секунды создавать новые миры. Люди могут смешивать и сочетать свои состояния с состояниями друзей или своими собственными прошлыми состояниями. "Редкие векторы" могут возникать, поскольку некоторые игроки неизбежно будут блуждать по странному, неизведанному латентному пространству модели мира. Эти плавающие матрицы могут быть обменены как NFT. Чем более дикие вещи вы пробуете, тем более вероятно, что вы найдете редкие векторы. Тот, кто первым выпустит Vibe Minecraft, войдет в историю как изменивший ход игр навсегда.

Я наблюдаю мини-парадокс Моравеца в робототехнике: гимнастика, которая сложна для людей, гораздо легче для роботов, чем "некрасивые" задачи, такие как готовка, уборка и сборка. Это приводит к когнитивному диссонансу у людей вне этой области: "Так, роботы могут паркурить и танцевать брейк-данс, но почему они не могут позаботиться о моей собаке?" Поверьте, меня об этом спрашивали родители больше, чем вы думаете... "Парадокс робота Моравеца" также создает иллюзию, что физические возможности ИИ намного более развиты, чем они есть на самом деле. Я не выделяю Unitree, так как это касается всех недавних акробатических демонстраций в отрасли. Вот простой тест: если вы поставите стену перед роботом, который делает сальто, он врежется в нее с полной силой и создаст зрелище. Потому что он просто переобучен на этом единственном референсном движении, не осознавая окружающей среды. Вот почему существует этот парадокс: гораздо легче обучить "слепого гимнаста", чем робота, который видит и манипулирует. Первое можно полностью решить в симуляции и перенести без обучения в реальный мир, в то время как второе требует крайне реалистичной визуализации, физики контакта и сложной динамики объектов в реальном мире - ничего из этого нельзя хорошо смоделировать. Представьте, что вы можете обучать LLM не из интернета, а из чисто ручной текстовой консольной игры. Робототехники повезло. Мы живем в мире, где ускоренные физические движки настолько хороши, что мы можем добиться впечатляющей акробатики, используя буквально ноль реальных данных. Но мы еще не открыли тот же чит-код для общей ловкости. До тех пор мы все еще будем подвергаться вопросам от наших озадаченных родителей.

В последнее время я немного молчал об X. Прошедший год стал для нас переломным моментом. Грок-4 и Kimi K2 потрясающие, но мир робототехники — это чудесный Дикий Запад. Это похоже на НЛП в 2018 году, когда был опубликован GPT-1 вместе с BERT и тысячей других цветков, которые расцвели. Никто не знал, какой из них в конечном итоге станет ChatGPT. Дебаты были жаркими. Энтропия была заоблачной. Идеи были безумно веселыми. Я полагаю, что GPT-1 робототехники уже находится где-то на Arxiv, но мы не знаем точно, какой именно. Это могут быть модели мира, RL, обучение по человеческому видео, sim2real, real2sim и т.д. и т.., или любая их комбинация. Дебаты идут жарко. Энтропия заоблачна. Идеи безумно веселы, вместо того чтобы выжимать последние несколько % из AIME и GPQA. Природа робототехники также сильно усложняет пространство для проектирования. В отличие от чистого мира битов для LLM (текстовых строк), нам, робототехникам, приходится иметь дело с беспорядочным миром атомов. В конце концов, в контуре есть кусок программно-определяемого металла. Нормальным специалистам со степенью магистра права может быть трудно в это поверить, но до сих пор робототехники все еще не могут прийти к единому мнению о критериях! Разные роботы имеют разные возможности - одни лучше справляются с акробатикой, а другие - с манипуляцией объектами. Некоторые из них предназначены для промышленного использования, в то время как другие – для бытовых задач. Перекрестное воплощение — это не просто научное новшество, а важная функция для универсального мозга робота. Я разговаривал с десятками руководителей высшего звена из различных компаний, занимающихся робототехникой, старых и новых. Некоторые продают все тело. Некоторые продают такие части тела, как ловкие руки. Многие другие продают экскаваторы для изготовления новых корпусов, создания симуляций или сбора огромных массивов данных. Пространство бизнес-идей так же дико, как и само исследование. Это новая золотая лихорадка, подобной которой мы не видели со времен волны ChatGPT 2022 года. Лучшее время для входа — когда пик неконсенсуса. Мы все еще находимся в начале кривой потерь – есть явные признаки жизни, но они очень далеки от конвергенции. Каждый шаг градиента уводит нас в неизвестность. Но одно я знаю точно - не бывает AGI без прикосновения, чувствования и воплощения в беспорядочном мире. Если говорить о более личном плане - управление исследовательской лабораторией сопряжено с совершенно новым уровнем ответственности. Предоставление обновлений непосредственно генеральному директору компании стоимостью 4 триллиона долларов, мягко говоря, одновременно и захватывающее, и всепоглощающее мое внимание. Прошли те времена, когда я мог оставаться в курсе и глубоко погружаться в все новости об искусственном интеллекте. Я постараюсь выкроить время, чтобы рассказать больше о своем путешествии.

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные