ACLJun, 2024

不消除而是综合:对混合专家进行事后控制以应对自然语言理解中的快捷转移

TL;DR通过对混合专家的悲观聚合,可以增强模型对快捷方式分布变化的鲁棒性。