🚨 ÚLTIMA HORA: DeepSeek acaba de lanzar una mejora fundamental en la arquitectura Transformer CEO Wenfeng Liang en la lista de autores LA BALLENA HA VUELTO 🐋
El artículo "mHC: Manifold-Restrained Hyper-Connections" propone un marco para mejorar las Hyper-Connections en Transformers. Utiliza proyecciones de múltiples para restaurar el mapeo de identidades, abordando la inestabilidad del entrenamiento, los límites de escalabilidad y la sobrecarga de memoria. Los beneficios clave incluyen una mejora en el rendimiento y la eficiencia en modelos a gran escala, como se muestra en los experimentos.
69