🚨 CẬP NHẬT: DeepSeek vừa công bố một cải tiến cơ bản trong kiến trúc Transformer Giám đốc điều hành Wenfeng Liang trong danh sách tác giả CÁ VOI ĐÃ TRỞ LẠI 🐋
Bài báo "mHC: Kết nối siêu bị ràng buộc bởi đa tạp" đề xuất một khung để nâng cao Kết nối siêu trong Transformers. Nó sử dụng các phép chiếu đa tạp để khôi phục ánh xạ đồng nhất, giải quyết sự không ổn định trong đào tạo, giới hạn khả năng mở rộng và chi phí bộ nhớ. Các lợi ích chính bao gồm hiệu suất và hiệu quả được cải thiện trong các mô hình quy mô lớn, như đã được chứng minh trong các thí nghiệm.
48