Jul, 2024

百万专家混合模型

TL;DR基于稀疏检索的层设计 PEER(parameter efficient expert retrieval)充分利用来自庞大专家池(超过一百万个)的产品键技术以实现稀疏检索,超过密集前馈层和粗粒度 MoEs,从而在性能 - 计算权衡方面提供更好的性能。通过有效利用大量的专家,PEER 释放了进一步扩展 Transformer 模型的潜力,同时保持计算效率。