Dec, 2023

HyperRouter: 面向稀疏专家混合的高效训练和推理

TL;DR通过固定的超网络和可训练嵌入层动态生成路由器参数的方式,HyperRouter 在训练和冻结过程中学习优化路由策略,从而在各项任务上展现出明显的性能提升和效率增益。