Nov, 2022

关注机制的实际作用是多少?质疑预训练Transformers模型中关注机制的重要性

TL;DR该研究介绍了一种新的探测方法 PAPA,它通过使用常量作为注意力权重值,取代了输入相关的注意力矩阵。该研究表明,当使用PAPA时,预训练Transformer模型在6个下游任务上仍然能够保持不错的性能表现,说明模型中的注意力机制并非如人们通常认为的那样重要。因此,该研究为探索更为简单的替代输入相关的注意力机制以及更好地利用这一机制提供了新的研究思路。