我认为人们低估了处理图像/视频相比文本要昂贵得多。 在Tinder的推荐算法中,大多数人认为涉及一些图像/计算机视觉,但使用滑动模式进行余弦相似度计算效率高出1000倍。 话虽如此,模型(和应用)的下一个战场是图像和视频,我认为这将会令人兴奋1000倍!
Ethan He
Ethan He8月7日 03:32
人工智能从整个互联网提取了文本。但图像的大小是文本的1000倍。视频的大小又是1000倍,达到泽字节(zettabytes)。目前视频的数量远远超过人工智能能够处理的。视频生成和世界模型正在以光速发展。
750