🚨 BRYTANDE: DeepSeek har precis släppt en grundläggande förbättring av Transformer-arkitekturen VD Wenfeng Liang finns på författarlistan VALEN ÄR TILLBAKA 🐋
Artikeln "mHC: Manifold-Constrained Hyper-Connections" föreslår en ram för att förbättra hyper-kopplingar i transformatorer. Den använder mångfaldsprojektioner för att återställa identitetskartläggning, och adresserar träningsostabilitet, skalbarhetsbegränsningar och minnesöverhead. Viktiga fördelar inkluderar förbättrad prestanda och effektivitet i storskaliga modeller, vilket visas i experiment.
45