ACLMay, 2021

有效的注意力揭示解释性

TL;DR该研究使用 GLUE 任务和 BERT,比较了标准注意力和有效注意力矩阵对于解释语言建模预训练和语言特征的差异,并发现有效注意力更加相关于最终任务的解决,推荐使用有效注意力更贴近设计目标。