Jun, 2023

混合超网络:通过架构路由的专家混合改进权重共享超网络训练

TL;DR本文提出一种新的神经结构搜索方法,即混合超网,通过引入专家混合,提供了更加专业的模型选择,并通过路由机制调整各子网络的权重,有效提高了超网模型的性能,实验表明该方法在机器翻译和 BERT 模型中均取得了优异的性能。