Creo que la gente subestima lo mucho más caro que es procesar imágenes/videos en comparación con el texto. En Tinder, para el algoritmo de recomendación, la mayoría de las personas asumen que hay algún tipo de imagen/visión por computadora involucrada, pero era 1000 veces más eficiente hacer similitud coseno con los patrones de deslizamiento. Dicho esto, el próximo campo de batalla para los modelos (y aplicaciones) son las imágenes y los videos, ¡y creo que será 1000 veces más emocionante!
Ethan He
Ethan He7 ago, 03:32
La IA ha agotado el texto de toda la internet. Pero las imágenes son 1000 veces más grandes. Los videos son otras 1000 veces más grandes, en zettabytes. Hay muchos más videos de los que la IA puede consumir aún. La generación de videos y los modelos del mundo están evolucionando a la velocidad de la luz.
743