Tôi nghĩ mọi người đánh giá thấp mức độ tốn kém khi xử lý hình ảnh/video so với văn bản. Tại Tinder, cho thuật toán gợi ý, hầu hết mọi người giả định rằng có một số hình ảnh/nhận diện máy tính liên quan, nhưng thực tế thì hiệu quả hơn 1000 lần khi thực hiện độ tương đồng cosine với các mẫu vuốt. Nói như vậy, chiến trường tiếp theo cho các mô hình (và ứng dụng) là hình ảnh và video, và tôi nghĩ điều đó sẽ thú vị hơn 1000 lần!
Ethan He
Ethan He03:32 7 thg 8
AI đã khai thác văn bản từ toàn bộ internet. Nhưng hình ảnh thì lớn gấp 1000 lần. Video còn lớn hơn gấp 1000 lần nữa, lên đến zettabytes. Có nhiều video hơn là AI có thể tiêu thụ được. Việc tạo video và các mô hình thế giới đang phát triển với tốc độ ánh sáng.
758