🚨 突发消息:DeepSeek 刚刚在 Transformer 架构中推出了一项基础性改进 首席执行官梁文峰在作者名单上 鲸鱼回来了 🐋
论文 "mHC: Manifold-Constrained Hyper-Connections" 提出了一个框架,以增强变压器中的超连接。 它使用流形投影来恢复身份映射,解决训练不稳定性、可扩展性限制和内存开销问题。 主要好处包括在大规模模型中提高性能和效率,如实验所示。
63