Хороший пост от @balajis о "разрыве верификации". Вы можете рассматривать это как наличие двух режимов в создании. Заимствуя терминологию GAN: 1) генерация и 2) дискриминация. Например, живопись - вы делаете мазок кистью (1), а затем некоторое время смотрите, улучшили ли вы картину (2). Эти два этапа переплетаются практически во всех творческих работах. Второй момент. Дискриминация может быть вычислительно очень сложной. - изображения, безусловно, самые простые. Например, команды генераторов изображений могут создавать гигантские сетки результатов, чтобы определить, является ли одно изображение лучше другого. Спасибо гигантскому GPU в вашем мозге, созданному для быстрого обработки изображений. - текст гораздо сложнее. Его можно просмотреть, но нужно читать, он семантический, дискретный и точный, поэтому вам также нужно рассуждать (особенно, например, в коде). - аудио, возможно, даже сложнее, на мой взгляд, потому что оно требует временной оси, поэтому его даже нельзя просмотреть. Вы вынуждены тратить последовательные вычисления и не можете параллелизовать это вообще. Можно сказать, что в кодировании LLM сократили (1) до ~мгновенного, но сделали очень мало, чтобы решить (2). Человеку все равно нужно смотреть на результаты и дискриминировать, хороши ли они. Это моя основная критика кодирования LLM в том, что они бездумно выдают *слишком* много кода за запрос с произвольной сложностью, притворяясь, что этапа 2 не существует. Получение такого количества кода плохо и страшно. Вместо этого LLM должно активно работать с вами, чтобы разбить проблемы на маленькие поэтапные шаги, каждый из которых легче проверить. Оно должно предвидеть вычислительную работу (2) и уменьшать ее как можно больше. Оно должно действительно заботиться. Это приводит меня, вероятно, к самому большому недопониманию, которое не-кодеры имеют о кодировании. Они думают, что кодирование - это написание кода (1). Это не так. Это о том, чтобы смотреть на код (2). Загружать его в свою рабочую память. Ходить взад и вперед. Обдумывать все крайние случаи. Если вы поймаете меня в случайный момент, когда я "программирую", я, вероятно, просто смотрю на экран и, если меня прервут, действительно злюсь, потому что это так вычислительно напряженно. Если мы только ускорим 1, но не уменьшим 2 (что происходит большую часть времени!), тогда, очевидно, общая скорость кодирования не улучшится (см. закон Амдаля).
Balaji
Balaji4 июн. 2025 г.
AI ПОДСКАЗКИ → AI ПРОВЕРКА AI подсказки масштабируются, потому что подсказки — это просто набор текста. Но AI проверка не масштабируется, потому что проверка вывода AI включает в себя гораздо больше, чем просто набор текста. Иногда вы можете проверить визуально, поэтому AI отлично подходит для фронтенда, изображений и видео. Но для чего-то более тонкого нужно глубоко читать код или текст — а это значит, что нужно хорошо знать тему, чтобы исправить AI. Исследователи хорошо осведомлены об этом, поэтому проводится так много работы по оценкам и галлюцинациям. Однако концепция проверки как узкого места для пользователей AI обсуждается недостаточно. Да, вы можете попробовать формальную проверку или модели критиков, где один AI проверяет другой, или другие техники. Но даже осознание проблемы как первоклассной задачи — это половина дела. Для пользователей: AI проверка так же важна, как и AI подсказки.
449,4K