Контроль приходит последним в этот раз. Но он приходит.
Cristóbal Valenzuela
Cristóbal Valenzuela14 нояб. 2024 г.
Я часто говорю о контроле в ИИ. Но я осознал, что иногда люди думают, что я имею в виду "лучшие подсказки". Поэтому вот мои мысли о том, что я имею в виду под контролем: мы решаем графику в обратном порядке. История компьютерной графики следует четкой прогрессии: сначала появился контроль, затем качество. Потребовались десятилетия, чтобы установить правильные абстракции - кривые, треугольники, полигоны, сетки - которые позволили бы нам точно рисовать то, что мы хотели на экране. Эти фундаментальные строительные блоки не изменились сильно, потому что они оказались правильными. От руки Эда Кэтмулла до современных игровых движков основные принципы того, как мы контролируем пиксели, остались удивительно стабильными. Основы возникли не только для контроля, но и как эффективные способы описания и рендеринга сложных сцен. Качество рендеринга было последним рубежом. Куб, смоделированный в 1987 году с использованием первой версии Renderman, следует тем же геометрическим принципам, что и куб, смоделированный в Blender сегодня. Что кардинально отличается, так это рендеринг - освещение, материалы, тени и отражения, которые делают его реалистичным. Индустрия потратила десятилетия на преодоление странной долины, создавая все более сложные системы рендеринга, чтобы приблизиться к фотореализму. Конечно, многие графические инновации одновременно улучшили как контроль, так и качество, и история прогресса графики более сложна, чем просто "контроль, затем качество." Но этот порядок не был произвольным. Сам графический процесс заставляет это: геометрия определяет, что мы хотим нарисовать, шейдеры определяют, как это выглядит. Даже движки реального времени следуют этой схеме - сначала устанавливая уровни детализации, затем улучшая качество рендеринга в рамках этих ограничений. ИИ полностью перевернул эту прогрессию. Современные генеративные модели достигают фотореалистичного качества рендеринга, которое соперничает или превосходит традиционные процессы, эффективно обучаясь всей графической цепочке - от геометрии до глобального освещения - через масштабное обучение. Они разрушили традиционное разделение между моделированием и рендерингом, создавая систему от начала до конца, которая может производить потрясающие изображения из высокоуровневых описаний. Чего не хватает, так это контроля. Хотя мы можем генерировать фотореалистичные сцены за секунды, нам не хватает точного контроля, который обеспечили десятилетия исследований в области графики. Мы не можем легко регулировать геометрию, точно настраивать материалы или манипулировать освещением с той тонкостью, которую ожидают художники. Детерминированный характер традиционной графики - где каждый параметр имеет предсказуемый эффект - был заменен вероятностными моделями. Это обратная графическая проблема: мы решили рендеринг до того, как решили контроль. Наши модели могут создавать потрясающие изображения, но им не хватает фундаментальных абстракций, которые сделали компьютерную графику такой мощной - способности вносить точные, целенаправленные изменения на любом уровне детализации. Это не постоянное ограничение. Так же, как компьютерная графика в конечном итоге решила проблему рендеринга, ИИ решит проблему контроля. Вопрос не в том, если, а в том, как. Мы находим правильные абстракции для управления генеративными моделями - эквивалент кривых, треугольников и полигонов, которые революционизировали компьютерную графику ранее. Я думаю, что решения могут выглядеть иначе. Новые примитивы для контроля, которые являются родными для нейронных сетей, могут быть правильным ответом, а не попыткой навязать традиционные графические концепции в эту новую парадигму. Хотя я также думаю, что есть гибридные подходы, сочетающие традиционную графику с ИИ, которые стоит исследовать. Цель остается той же: обеспечить тот же уровень предсказуемости и точности, который сделал компьютерную графику основным инструментом для творческого самовыражения. Это конечная цель, но лучше: в реальном времени, дешево и с точным контролем, который как можно более интуитивен и универсален. Контроль приходит последним на этот раз. Но он приходит.
5,11K