Дослідження доктора Ю Сана: Удосконалення штучного інтелекту за допомогою гіперболічних обчислень Доктор Ю Сунь разом із дослідниками зі Стенфорда, Каліфорнійського університету в Берклі, Каліфорнійського університету в Лос-Анджелесі та Каліфорнійського університету в Остіні розширює межі генеративного штучного інтелекту за допомогою інфраструктури графічних процесорів Hyperbolic Labs. Два проривні проекти 🧵: хвилинна генерація відео та адаптивні RNN.
Генерація 🎥 хвилинного відео Більшість відеомоделей, таких як Sora та Veo, мають максимальну частоту ~20 секунд. Команда Сана представила шари Test-Time Training (TTT) — адаптивні нейронні стани, які розвиваються на основі висновку — що робить можливим 1-хвилинне відео з однієї підказки без постредагування.
Інфраструктура та результати > 256× NVIDIA H100s через @hyperbolic_ai > Модель: 5B параметр CogVideo-X > Довжина контексту: 300 000 токенів > Час роботи: 50 GPU-годин > Набір даних: 7-годинні розкадровки мультфільмів > +34 Ело проти Мамби 2 базовий рівень > Папір 📄
РНМ з експресивними прихованими станами 🔁 Стандартні RNN деградують за межами 16 тисяч токенів. Команда доктора Сана створила TTT-Linear і TTT-MLP — приховані стани, які є нейронними мережами, які можна навчати. Вони адаптуються під час умовиводу за допомогою самоконтролю на основі градієнта.
Результатів > Довжина контексту: 32 000 токенів > Масштаб моделі: від 125 М до 1,3 В параметрів > Прискорення виконання: 5× завдяки оптимізації подвійної форми > Лінійний час, постійна пам'ять > Перевершує або зрівняється з Transformer, Mamba, DeltaNet > Код:
Гіперболічна інфраструктура = стимулятор дослідження Стабільні кластери H100 від Hyperbolic з високою пропускною здатністю підтримували обробку 300 тисяч токенів, постійні середовища для оптимізації внутрішнього циклу та масштабовані ресурси для експериментів, зіставлених з FLOP.
«Графічні процесори та сервіси H100 від Hyperbolic забезпечили надійність, яка дозволила нам створити прототип наших досліджень під час навчання під час тестування. Їхня інфраструктура полегшила масштабування наших моделей для створення однохвилинних відео з текстових розкадровок. Ми змогли зосередитися на дослідженнях, а не на вирішенні проблем інфраструктури», — доктор Ю Сунь
Майбутнє генеративного штучного інтелекту та моделювання послідовностей вже тут. Завдяки шарам TTT і масштабованим обчисленням відкриваються нові кордони. Орендуйте графічні процесори на вимогу зараз за ціною Ознайомтеся з повним текстом блогу:
2,27K