注意力不等于解释
Attention mechanisms 在 NLP 系统中扮演着重要角色,在重熙神经网络 (RNN) 模型中特别如此。本研究挑战了最近一篇质疑 “Attention 不是 Explanation” 的论文,并提出了四项替代性测试,以确定 Attention 是否可以用作 Explanation,并为每个测试提供有意义的 Attention 机制解释。最终的解释是此前的研究不能否定 Attention 机制的可解释性。
Aug, 2019
研究关注机制在 NLP 中的应用,提出了一个针对循环网络序列分类任务中存在的问题的解决方法,并给出了证明,说明关注机制可以提供循环模型的可靠解释。
May, 2020
本文在两种 NLP 任务和两种模型上,比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性,并发现注意力方法与其他特征归属方法的关联度较低,建议停止使用等级相关性作为注意力解释的评估指标。
May, 2022
本研究提出一种简单方法,通过训练模型生成欺骗性的注意力掩码,从而质疑注意机制的可靠性,因为通过操纵注意权重,即使我们可以证明模型仍然依赖这些特征来驱动预测,我们的方法会减少指定的不允许的标记被分配的总权重。通过人类研究,我们展示了我们操作注意力的解释会欺骗人们认为偏见的模型的预测不依赖性别,从而对注意力在公平性和问责制的算法审计工具上的可靠性产生怀疑。
Sep, 2019
本文讨论了 Attention-based methods 在模型中的解释性作用,指出了 recent research 发现的 attention-as-importance interpretations 的局限性,即注意力权重本身可能具有额外的信息导致现象的发生,我们通过理论分析和实验展示了这个问题的存在,提出了两种缓解这个问题的方法,并在实验中证明这些方法能有效地提高 Attention 机制的可解释性。
Jun, 2020
本文研究基于 LSTM 的编码器的注意力机制的可解释性问题,发现现有的注意力机制不能提供清晰的解释,因为同步隐藏状态之间的高相关性使得注意权重缺乏了传达重要信息的能力。为了使注意力机制更为可信和可解释,作者提出一种基于多样性驱动的训练目标修改 LSTM 结构,实现不同时步的隐藏状态的多样化,以提高注意力分布的质量和可解释性。
Apr, 2020
本论文论述了在模型解释方面,关注度是否能够用作模型预测的解释存在争议,因为关注度虽然能够在每个输入令牌上提供一个权重,但往往不清楚它用作解释的目标是什么。作者认为,对于寻找与预测结果最相关的输入令牌并且解释的用户是模型开发人员的目标和用户,输入显著性方法更为合适,没有强有力的理由使用关注度。所以,本文提出应将注意力从关注度转向输入显著性方法,并要求作者明确解释的目标和用户。
Oct, 2020