Myślę, że ludzie niedoceniają, jak dużo droższe jest przetwarzanie obrazów/wideo w porównaniu do tekstu. W Tinderze, w algorytmie rekomendacji, większość ludzi zakłada, że istnieje jakiś obraz/komputerowe widzenie, ale było to 1000 razy bardziej efektywne, aby zastosować podobieństwo cosinusowe w wzorcach przesuwania. Mówiąc to, następne pole bitwy dla modeli (i aplikacji) to obrazy i wideo, i myślę, że będzie to 1000 razy bardziej ekscytujące!
Ethan He
Ethan He7 sie, 03:32
AI wyczerpał tekst z całego internetu. Ale obrazy są 1000 razy większe. Filmy są kolejne 1000 razy większe w zettabajtach. Jest znacznie więcej filmów, niż AI może jeszcze przetworzyć. Generowanie wideo i modele świata rozwijają się z prędkością światła.
742