🚨 BREAKING: DeepSeek har nettopp sluppet en grunnleggende forbedring av Transformer-arkitekturen Administrerende direktør Wenfeng Liang på forfatterlisten HVALEN ER TILBAKE 🐋
Artikkelen «mHC: Manifold-Constrained Hyper-Connections» foreslår et rammeverk for å forbedre hyperforbindelser i transformatorer. Den bruker mangfoldige projeksjoner for å gjenopprette identitetskartlegging, og adresserer treningsustabilitet, skalerbarhetsbegrensninger og minneoverhead. Viktige fordeler inkluderer forbedret ytelse og effektivitet i storskalamodeller, som vist i eksperimenter.
51