بحث أجرته الدكتور يو صن: تطوير الذكاء الاصطناعي باستخدام الحوسبة الزائدية يعمل الدكتور يو صن ، جنبا إلى جنب مع باحثين من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي وجامعة كاليفورنيا في سان فرانسيسكو وجامعة تكساس أوستن ، على دفع حدود الذكاء الاصطناعي التوليدي باستخدام البنية التحتية لوحدة معالجة الرسومات الخاصة ب Hyperbolic Labs. مشروعان متقدمان: إنشاء فيديو مدته دقيقة وشبكات RNN التكيفية. 🧵
توليد 🎥 فيديو لمدة دقيقة معظم نماذج الفيديو مثل Sora و Veo cap عند ~ 20 ثانية. قدم فريق Sun طبقات تدريب وقت الاختبار (TTT) - الحالات العصبية التكيفية التي تتطور عند الاستدلال - مما يجعل مقاطع الفيديو مدتها دقيقة واحدة من مطالبة واحدة ممكنة دون أي تحرير لاحق.
البنية التحتية والنتائج > 256× NVIDIA H100s عبر @hyperbolic_ai > الموديل: 5B param CogVideo-X > طول السياق: 300,000 رمز مميز > وقت التشغيل: 50 ساعة GPU مجموعة بيانات >: رسوم متحركة على لوحة عمل لمدة 7 ساعات > +34 Elo vs Mamba 2 خط الأساس > الورق 📄
RNNs مع الحالات 🔁 المخفية التعبيرية تتحلل RNNs القياسية إلى ما بعد 16 ألف رمز مميز. قام فريق الدكتور صن ببناء TTT-Linear و TTT-MLP - حالات مخفية هي شبكات عصبية قابلة للتعلم. تتكيف هذه أثناء الاستدلال باستخدام الإشراف الذاتي القائم على التدرج.
النتائج > طول السياق: 32,000 رمز مميز مقياس نموذج >: معلمات 125 م إلى 1.3 ب تسريع وقت التشغيل >: 5× عبر التحسين المزدوج > الوقت الخطي ، الذاكرة الثابتة يتفوق > أو يتطابق مع Transformer و Mamba و DeltaNet كود >:
الأشعة تحت الحمراء الزائدية = ممكن البحث دعمت مجموعات H100 المستقرة وعالية الإنتاجية من Hyperbolic معالجة 300 كيلو بايت رمز مميز ، وبيئات ثابتة لتحسين الحلقة الداخلية ، وموارد قابلة للتطوير للتجارب المتطابقة مع FLOP.
"قدمت وحدات معالجة الرسومات H100 وخدماتها من Hyperbolic الموثوقية التي مكنتنا من وضع نموذج أولي لأبحاثنا في التدريب في وقت الاختبار. سهلت بنيتهم التحتية توسيع نطاق نماذجنا لإنشاء مقاطع فيديو مدتها دقيقة واحدة من القصص المصورة النصية. تمكنا من التركيز على البحث بدلا من التعامل مع قضايا البنية التحتية." - الدكتور يو صن
مستقبل الذكاء الاصطناعي التوليدي ونمذجة التسلسل هنا. مع طبقات TTT والحوسبة القابلة للتطوير ، يتم فتح حدود جديدة. استئجار وحدات معالجة الرسومات عند الطلب الآن في تحقق من المدونة الكاملة:
‏‎2.32‏K