🚨 DERNIÈRE MINUTE : DeepSeek vient de publier une amélioration fondamentale de l'architecture Transformer Le PDG Wenfeng Liang sur la liste des auteurs LE WHALE EST DE RETOUR 🐋
Le document "mHC : Hyper-Connexions Contraintes par des Variétés" propose un cadre pour améliorer les Hyper-Connexions dans les Transformers. Il utilise des projections de variétés pour restaurer le mappage d'identité, abordant l'instabilité de l'entraînement, les limites de scalabilité et la surcharge mémoire. Les principaux avantages incluent une performance et une efficacité améliorées dans les modèles à grande échelle, comme le montrent les expériences.
47