Je pense que les gens sous-estiment combien il est plus coûteux de traiter des images/vidéos par rapport au texte. Chez Tinder, pour l'algorithme de recommandation, la plupart des gens supposent qu'il y a une certaine image/vision par ordinateur impliquée, mais il était 1000 fois plus efficace de faire une similarité cosinus avec les modèles de balayage. Cela dit, le prochain champ de bataille pour les modèles (et les applications) est les images et les vidéos, et je pense que ce sera 1000 fois plus excitant !
Ethan He
Ethan He7 août, 03:32
L'IA a épuisé le texte de l'ensemble d'Internet. Mais les images sont 1000 fois plus grandes. Les vidéos sont encore 1000 fois plus grandes, atteignant des zettaoctets. Il y a beaucoup plus de vidéos que l'IA ne peut encore consommer. La génération de vidéos et les modèles mondiaux évoluent à la vitesse de la lumière.
740