Ich denke, die Leute unterschätzen, wie viel teurer es ist, Bilder/Videos im Vergleich zu Text zu verarbeiten. Bei Tinder für den Empfehlungsalgorithmus nehmen die meisten an, dass es eine Art Bild-/Computer Vision gibt, aber es war 1000-mal effizienter, die Kosinusähnlichkeit mit Wischmustern zu verwenden. Das gesagt, das nächste Schlachtfeld für Modelle (und Anwendungen) sind Bilder und Videos, und ich denke, es wird 1000-mal spannender!
Ethan He
Ethan He7. Aug., 03:32
KI hat Texte aus dem gesamten Internet erschöpft. Aber Bilder sind 1000x größer. Videos sind weitere 1000x größer in Zettabytes. Es gibt viel mehr Videos, als die KI bisher konsumieren kann. Die Videoerzeugung und Weltmodelle entwickeln sich mit Lichtgeschwindigkeit.
748