BriefGPT.xyz
Ask
alpha
关键词
collapsing problem
搜索结果 - 1
HyperRouter: 面向稀疏专家混合的高效训练和推理
通过固定的超网络和可训练嵌入层动态生成路由器参数的方式,HyperRouter 在训练和冻结过程中学习优化路由策略,从而在各项任务上展现出明显的性能提升和效率增益。
PDF
7 months ago
Prev
Next