🚨 NOWOŚĆ: DeepSeek właśnie wprowadził fundamentalną poprawę w architekturze Transformera CEO Wenfeng Liang na liście autorów WHALE WRÓCIŁ 🐋
Artykuł "mHC: Manifold-Constrained Hyper-Connections" proponuje ramy do ulepszania Hyper-Connections w Transformerach. Wykorzystuje projekcje rozmaitości do przywracania mapowania tożsamości, rozwiązując problemy z niestabilnością treningu, ograniczeniami skalowalności i obciążeniem pamięci. Główne korzyści to poprawa wydajności i efektywności w modelach dużej skali, co pokazano w eksperymentach.
58