O controle vem por último desta vez. Mas está a caminho.
Cristóbal Valenzuela
Cristóbal Valenzuela14/11/2024
Falo frequentemente sobre controlo na IA. Mas percebi que às vezes as pessoas pensam que me refiro a "melhores prompts". Então aqui estão os meus pensamentos sobre o que quero dizer com controlo: estamos a resolver gráficos de trás para a frente. A história dos gráficos computacionais segue uma progressão clara: primeiro veio o controlo, depois a qualidade. Levou décadas para estabelecer as abstrações corretas - curvas, triângulos, polígonos, malhas - que nos permitiriam desenhar exatamente o que queríamos numa tela. Estes blocos de construção fundamentais não mudaram muito porque se mostraram ser os certos. Desde a mão de Ed Catmull até aos motores de jogos modernos, os princípios centrais de como controlamos os pixels permaneceram notavelmente estáveis. Os fundamentos surgiram não apenas para controlo, mas como formas eficientes de descrever e renderizar cenas complexas. A qualidade de renderização foi a última fronteira. Um cubo modelado em 1987 usando a primeira versão do Renderman segue os mesmos princípios geométricos que um modelado no Blender hoje. O que é dramaticamente diferente é a renderização - a iluminação, os materiais, as sombras e os reflexos que o fazem parecer real. A indústria passou décadas a fechar o vale inquietante, construindo sistemas de renderização cada vez mais sofisticados para se aproximar do fotorrealismo. Claro, muitas inovações gráficas melhoraram tanto o controlo quanto a qualidade simultaneamente, e a história do progresso gráfico é mais complexa do que apenas "controlo depois qualidade." Mas esta ordem não foi arbitrária. O pipeline gráfico em si a impõe: a geometria define o que queremos desenhar, os shaders determinam como parece. Mesmo os motores em tempo real seguem este padrão - primeiro estabelecendo controlos de nível de detalhe, depois melhorando a qualidade de renderização dentro dessas restrições. A IA inverteu completamente esta progressão. Os modelos generativos de hoje alcançam uma qualidade de renderização fotorrealista que rivaliza ou supera os pipelines tradicionais, aprendendo efetivamente toda a pilha gráfica - desde a geometria até à iluminação global - através de um treinamento em grande escala. Eles colapsaram a separação tradicional entre modelagem e renderização, criando um sistema de ponta a ponta que pode produzir imagens deslumbrantes a partir de descrições de alto nível. O que falta é controlo. Embora possamos gerar cenas fotorrealistas em segundos, carecemos do controlo preciso que décadas de pesquisa gráfica proporcionaram. Não conseguimos ajustar facilmente a geometria, afinar materiais ou manipular a iluminação com a granularidade que os artistas esperam. A natureza determinística dos gráficos tradicionais - onde cada parâmetro tem um efeito previsível - foi substituída por modelos probabilísticos. Este é o problema dos gráficos inversos: resolvemos a renderização antes de resolver o controlo. Os nossos modelos podem criar imagens deslumbrantes, mas carecem das abstrações fundamentais que tornaram os gráficos computacionais tão poderosos - a capacidade de fazer alterações precisas e intencionais em qualquer nível de detalhe. Esta não é uma limitação permanente. Assim como os gráficos computacionais eventualmente resolveram o problema da renderização, a IA resolverá o problema do controlo. A questão não é se, mas como. Estamos a encontrar as abstrações corretas para controlar modelos generativos - o equivalente às curvas, triângulos e polígonos que revolucionaram os gráficos computacionais antes. Acho que as soluções podem parecer diferentes. Novos primitivos para controlo que são nativos das redes neurais podem ser a resposta certa em vez de tentar forçar conceitos gráficos tradicionais neste novo paradigma. Embora também ache que existem abordagens híbridas que combinam gráficos tradicionais com IA que valem a pena explorar. O objetivo continua a ser fornecer o mesmo nível de previsibilidade e precisão que tornaram os gráficos computacionais uma ferramenta fundamental para a expressão criativa. Esse é o objetivo final, mas melhor: em tempo real, barato e com um controlo preciso que seja o mais intuitivo e de uso geral possível. O controlo vem por último desta vez. Mas está a chegar.
5,13K