Я часто говорю про управління в ШІ. Але я зрозумів, що іноді люди думають, що я маю на увазі «кращі підказки». Отже, ось мої думки про те, що я маю на увазі під контролем: ми вирішуємо графіку у зворотному порядку. Історія комп'ютерної графіки йде по чіткій прогресії: спочатку йшов контроль, потім якість. Знадобилися десятиліття, щоб встановити правильні абстракції - криві, трикутники, багатокутники, сітки - які дозволили б нам намалювати на екрані саме те, що ми хотіли. Ці фундаментальні будівельні блоки не сильно змінилися, тому що вони виявилися правильними. Від руки Еда Кетмулла до сучасних ігрових рушіїв, основні принципи того, як ми керуємо пікселями, залишаються напрочуд стабільними. Основи з'явилися не лише для керування, а й як ефективні способи опису та рендерингу складних сцен. Якість рендера була останнім рубежем. Куб, змодельований у 1987 році з використанням першої версії Renderman, дотримується тих самих геометричних принципів, що й той, що моделюється в Blender сьогодні. Що кардинально відрізняється, так це рендеринг - освітлення, матеріали, тіні та відблиски, які створюють відчуття реальності. Індустрія витратила десятиліття на закриття моторошної долини, створюючи все більш складні системи рендерингу для наближення до фотореалізму. Звичайно, багато графічних нововведень покращили і контроль, і якість одночасно, а історія прогресу графіки складніша, ніж просто «контроль, а потім якість». Але цей наказ не був довільним. Сам графічний конвеєр забезпечує це: геометрія визначає, що ми хочемо намалювати, шейдери визначають, як це виглядає. Навіть двигуни реального часу дотримуються цього шаблону - спочатку встановлюючи контроль рівня деталізації, а потім покращуючи якість рендерингу в рамках цих обмежень. Штучний інтелект повністю перевернув цю прогресію. Сучасні генеративні моделі досягають фотореалістичної якості рендерингу, яка конкурує з традиційними конвеєрами або перевершує їх, ефективно навчаючись усьому графічному стеку - від геометрії до глобального освітлення - за допомогою масштабного навчання. Вони зруйнували традиційний поділ між моделюванням і рендерингом, створивши наскрізну систему, яка може створювати приголомшливі зображення з високорівневих описів. Чого не вистачає, так це контролю. Хоча ми можемо генерувати фотореалістичні сцени за лічені секунди, нам не вистачає точного контролю, який забезпечували десятиліття графічних досліджень. Ми не можемо легко налаштувати геометрію, точно налаштувати матеріали або маніпулювати освітленням з тією деталізацією, якої очікують художники. Детермінований характер традиційної графіки, де кожен параметр має передбачуваний ефект, був замінений імовірнісними моделями. Це проблема зворотної графіки: ми розв'язали рендеринг перед розв'язанням керування. Наші моделі можуть створювати приголомшливі зображення, але їм не вистачає фундаментальних абстракцій, які зробили комп'ютерну графіку такою потужною - здатності вносити точні, навмисні зміни на будь-якому рівні деталізації. Це не є постійним обмеженням. Подібно до того, як комп'ютерна графіка в кінцевому підсумку вирішила проблему рендерингу, штучний інтелект вирішить проблему управління. Питання не в тому, якщо, а в тому, як. Ми знаходимо правильні абстракції для управління генеративними моделями - еквівалент кривих, трикутників і полігонів, які зробили революцію в комп'ютерній графіці раніше. Я думаю, що рішення можуть виглядати по-різному. Нові примітиви для керування, які є рідними для нейронних мереж, можуть бути правильною відповіддю, а не спробою нав'язати традиційні графічні концепції цій новій парадигмі. Хоча я також вважаю, що існують гібридні підходи, що поєднують традиційну графіку зі штучним інтелектом, які варто вивчити. Метою залишається забезпечити той самий рівень передбачуваності та точності, який зробив комп'ютерну графіку основним інструментом для творчого самовираження. Це кінцева мета, але краща: в режимі реального часу, дешево і з точним управлінням, яке є максимально інтуїтивно зрозумілим і універсальним. Контроль цього разу йде на останньому місці. Але він наближається.
107,65K