Dec, 2023
HyperRouter: 面向稀疏专家混合的高效训练和推理
HyperRouter: Towards Efficient Training and Inference of Sparse Mixture of Experts
Giang Do, Khiem Le, Quang Pham, TrungTin Nguyen, Thanh-Nam Doan...
TL;DR通过固定的超网络和可训练嵌入层动态生成路由器参数的方式,HyperRouter 在训练和冻结过程中学习优化路由策略,从而在各项任务上展现出明显的性能提升和效率增益。