Nghiên cứu của Tiến sĩ Yu Sun: Tiến bộ AI với Tính toán Siêu bội Tiến sĩ Yu Sun, cùng với các nhà nghiên cứu từ Stanford, UC Berkeley, UCSD và UT Austin, đang đẩy mạnh ranh giới của AI sinh tạo bằng cơ sở hạ tầng GPU của Hyperbolic Labs. Hai dự án đột phá: tạo video dài một phút và RNN thích ứng. 🧵
Tạo Video Dài Một Phút 🎥 Hầu hết các mô hình video như Sora và Veo chỉ giới hạn ở khoảng 20 giây. Nhóm của Sun đã giới thiệu các lớp Đào Tạo Thời Gian Kiểm Tra (TTT) — các trạng thái thần kinh thích ứng phát triển trong quá trình suy diễn — cho phép tạo video dài 1 phút từ một prompt duy nhất mà không cần chỉnh sửa sau.
Cơ sở hạ tầng và Kết quả > 256× NVIDIA H100s qua @hyperbolic_ai > Mô hình: 5B tham số CogVideo-X > Độ dài ngữ cảnh: 300.000 token > Thời gian chạy: 50 giờ GPU > Tập dữ liệu: 7 giờ phim hoạt hình đã được lên kịch bản > +34 Elo so với Mamba 2 cơ sở > Tài liệu 📄
RNN với Trạng thái Ẩn Biểu Cảm 🔁 RNN tiêu chuẩn suy giảm sau 16k token. Nhóm của Dr. Sun đã xây dựng TTT-Linear và TTT-MLP—các trạng thái ẩn là mạng nơ-ron có thể học. Chúng thích ứng trong quá trình suy diễn bằng cách sử dụng tự giám sát dựa trên gradient.
Kết quả > Độ dài ngữ cảnh: 32.000 token > Quy mô mô hình: 125M đến 1.3B tham số > Tăng tốc thời gian chạy: 5× thông qua tối ưu hóa dạng đôi > Thời gian tuyến tính, bộ nhớ không đổi > Vượt trội hoặc ngang bằng với Transformer, Mamba, DeltaNet > Mã:
Hyperbolic Infra = Công cụ Nghiên cứu Cụm H100 ổn định, có khả năng xử lý cao của Hyperbolic hỗ trợ xử lý 300k-token, môi trường liên tục cho tối ưu hóa vòng trong, và tài nguyên có thể mở rộng cho các thí nghiệm phù hợp với FLOP.
"Các GPU H100 và dịch vụ của Hyperbolic đã cung cấp độ tin cậy giúp chúng tôi phát triển nguyên mẫu nghiên cứu trong đào tạo theo thời gian thử nghiệm. Hạ tầng của họ đã giúp chúng tôi dễ dàng mở rộng các mô hình để tạo ra video một phút từ các bảng storyboard bằng văn bản. Chúng tôi có thể tập trung vào nghiên cứu thay vì phải xử lý các vấn đề hạ tầng." — Dr. Yu Sun
Tương lai của AI sinh tạo và mô hình chuỗi đã đến. Với các lớp TTT và tính toán có thể mở rộng, những biên giới mới đang được mở ra. Thuê GPU theo yêu cầu ngay bây giờ tại Xem toàn bộ blog:
2,32K