人々は、テキストと比較して画像/ビデオを処理するのにどれだけコストがかかるかを過小評価していると思います レコメンデーションアルゴリズムのtinderでは、ほとんどの人は画像/コンピュータービジョンが関係していると考えていますが、スワイプパターンでコサイン類似性を行う方が1000倍効率的でした そうは言っても、モデル(およびアプリケーション)の次の戦場は画像とビデオであり、1000倍エキサイティングになると思います!
Ethan He
Ethan He8月7日 03:32
AIはインターネット全体からテキストを使い果たしました。しかし、画像は1000倍大きくなります。ビデオはゼタバイトでさらに1000倍大きくなります。AI が消費できるビデオはまだはるかに多いです。ビデオ生成とワールドモデルは光の速さで進化しています。
764