ICLRAug, 2019

Transformer 中的可识别性

TL;DR研究 Transformer 模型中的自注意力和语境嵌入等核心组件,提出了有效关注作为解释注意力的补充工具,展示了输入标记在模型中保持其身份,并发现身份信息主要编码在嵌入的角度中,并且随着深度的增加而逐渐降低,同时利用梯度归因方法展示了输入信息在产生语境嵌入时的强烈混合,最终展示了更好地理解和进一步研究 Transformer 模型所需的工具。