Nov, 2023

通过混合词语专家实现记忆增强语言模型

TL;DR该论文通过引入大型知识丰富词汇的路由功能和专家,以 Mixture-of-Experts (MoE) 风格模型,积极地解耦学习容量与 FLOPs,提出了一种名为 Mixture of Word Experts (MoWE) 的方法,它可以被视为一种记忆增强模型,其中一组特定于单词的专家起到了稀疏记忆的作用,研究表明,在各种 NLP 任务中,MoWE 的性能明显优于相似 FLOPs 数量的 T5 模型系列,此外,MoWE 在知识密集型任务上胜过常规的 MoE 模型,并且具有与更复杂的记忆增强方法相似的性能,而后者通常需要调用自定义机制来搜索稀疏记忆。