🚨 NOTIZIE DALLA RIVOLUZIONE: DeepSeek ha appena rilasciato un miglioramento fondamentale nell'architettura Transformer Il CEO Wenfeng Liang è nella lista degli autori IL WHALE È TORNATO 🐋
Il documento "mHC: Manifold-Constrained Hyper-Connections" propone un framework per migliorare le Hyper-Connections nei Transformers. Utilizza proiezioni su varietà per ripristinare la mappatura identitaria, affrontando l'instabilità dell'addestramento, i limiti di scalabilità e l'overhead di memoria. I principali vantaggi includono prestazioni ed efficienza migliorate nei modelli su larga scala, come dimostrato negli esperimenti.
60