Dec, 2020

超越注意力可视化的 Transformer 可解释性

TL;DR本研究提出了一种基于 Deep Taylor Decomposition 原则的计算 Transformer 网络相关性的方法,通过注意力层和跳跃连接进行传播,并通过基于图像分类和文本分类问题的测试表明其在解释性方面优于现有方法。