May, 2020

Transformer 模型中的专家寻找

TL;DR本研究旨在探讨预训练 Transformer 模型中的专家单元及其对模型性能的影响,并论证了这些单元在多个方面非常重要,如与模型泛化能力相关,可用于解释未知概念等,并通过强制激活关键专家单元的方法实现了对给定概念的文本生成,无需重新训练模型或使用附加参数。