EMNLPApr, 2020

注意力不仅仅是权重:用向量范数分析 Transformer

TL;DR本文使用范数分析方法,证明注意力机制只是决定注意力输出的两个因素之一,通过对 BERT 和基于 Transformer 的神经机器翻译系统的范数分析,发现 BERT 没有很好地关注特殊的标记符号,并从 Transformer 的注意力机制中提取出合理的单词对齐,为理解 Transformers 的内部运作提供了洞见。