Badania dr. Yu Suna: Rozwój AI z wykorzystaniem obliczeń hiperbolicznych Dr Yu Sun, wraz z badaczami z Stanford, UC Berkeley, UCSD i UT Austin, przesuwa granice generatywnej AI, korzystając z infrastruktury GPU Hyperbolic Labs. Dwa przełomowe projekty: generowanie minutowych filmów i adaptacyjne RNN. 🧵
Generowanie filmów trwających minutę 🎥 Większość modeli wideo, takich jak Sora i Veo, ma limit około 20 sekund. Zespół Suna wprowadził warstwy Test-Time Training (TTT) — adaptacyjne stany neuronowe, które ewoluują podczas wnioskowania — co umożliwia tworzenie filmów o długości 1 minuty z jednego polecenia bez edytowania po nagraniu.
Infrastruktura i wyniki > 256× NVIDIA H100s via @hyperbolic_ai > Model: 5B param CogVideo-X > Długość kontekstu: 300 000 tokenów > Czas działania: 50 godzin GPU > Zbiór danych: 7 godzin animowanych filmów storyboardowych > +34 Elo w porównaniu do Mamba 2 jako punktu odniesienia > Artykuł 📄
RNN z ekspresyjnymi stanami ukrytymi 🔁 Standardowe RNN degradują się po 16k tokenów. Zespół dr. Suna zbudował TTT-Linear i TTT-MLP — stany ukryte, które są uczącymi się sieciami neuronowymi. Te dostosowują się podczas wnioskowania, korzystając z samonadzorowania opartego na gradiencie.
Wyniki > Długość kontekstu: 32 000 tokenów > Skala modelu: 125M do 1,3B parametrów > Przyspieszenie czasu działania: 5× dzięki optymalizacji w podwójnej formie > Czas liniowy, stała pamięć > Przewyższa lub dorównuje Transformer, Mamba, DeltaNet > Kod:
Hyperbolic Infra = Umożliwiacz badań Stabilne, o wysokiej przepustowości klastry H100 Hyperbolic wspierały przetwarzanie 300k-tokenów, trwałe środowiska do optymalizacji wewnętrznej oraz skalowalne zasoby do eksperymentów dopasowanych do FLOP.
"GPU H100 i usługi Hyperbolic zapewniły niezawodność, która umożliwiła nam prototypowanie naszych badań w zakresie treningu w czasie testu. Ich infrastruktura ułatwiła skalowanie naszych modeli do generowania jednominutowych filmów na podstawie tekstowych storyboardów. Mogliśmy skupić się na badaniach, a nie na problemach z infrastrukturą.” — Dr. Yu Sun
Przyszłość generatywnej AI i modelowania sekwencji jest tutaj. Dzięki warstwom TTT i skalowalnemu obliczeniu, nowe granice są odkrywane. Wynajmij GPU na żądanie teraz w Sprawdź pełnego bloga:
2,35K