🚨 NOTÍCIA DE ÚLTIMA HORA: A DeepSeek acaba de lançar uma melhoria fundamental na arquitetura Transformer O CEO Wenfeng Liang está na lista de autores A WHALE ESTÁ DE VOLTA 🐋
O artigo "mHC: Conexões Hiper-Constrangidas por Manifolds" propõe uma estrutura para melhorar as Conexões Hiper em Transformers. Utiliza projeções de manifold para restaurar o mapeamento de identidade, abordando a instabilidade de treinamento, limites de escalabilidade e sobrecarga de memória. Os principais benefícios incluem desempenho e eficiência melhorados em modelos de grande escala, como mostrado em experimentos.
53