通过忠实度违规测试重新思考注意力模型可解释性
通过对传统的可解释性测试进行评估,发现在复杂数据方面存在随机优势问题。为了解决这个问题,我们提出了三种基于趋势的可信度测试,并通过实证研究证明新的趋势测试可以更好地评估图像、自然语言和安全任务的可信度。我们实施了评估系统并评估了十种常用的解释方法,从中获得了前所未有的发现,启发了未来的研究。同时,可信度测试也极大地提高了下游任务的效果。例如,配备可靠的解释方法的模型调试在检测和修正准确性和安全性问题方面表现出更好的性能。
Sep, 2023
本文研究基于 LSTM 的编码器的注意力机制的可解释性问题,发现现有的注意力机制不能提供清晰的解释,因为同步隐藏状态之间的高相关性使得注意权重缺乏了传达重要信息的能力。为了使注意力机制更为可信和可解释,作者提出一种基于多样性驱动的训练目标修改 LSTM 结构,实现不同时步的隐藏状态的多样化,以提高注意力分布的质量和可解释性。
Apr, 2020
本文在两种 NLP 任务和两种模型上,比较了五种最近的特征归属方法和两种注意力方法之间的等级相关性,并发现注意力方法与其他特征归属方法的关联度较低,建议停止使用等级相关性作为注意力解释的评估指标。
May, 2022
本研究评估了多种特征排序方法的忠实度,并量化了限制相关特征对解释能力提高的影响,发现促进特征解释的方法在特征相关性降低后最具忠实度。
Nov, 2022
我们提出了 Faithful Attention Explainer(FAE)的框架,用于生成关于关注特征的忠实文本解释,并展示了该模型在生成图像描述和解译人类注意力方面的良好性能。
May, 2024
特征归因方法通过识别相关特征来解释神经网络的预测结果,本研究在 “忠实度” 范式内提出了两个新视角:可靠性和完备性,分别评估特征是否真正预测,以及归因结果是否完整,并基于数学基础提供可计算的定量度量,将这些指标应用于主流归因方法,为分析和比较特征归因方法提供了新视角。
Aug, 2023
本文提出了一种新的忠实度度量标准,即递归 ROAR,并对四种不同的重要性评估方法在八个数据集上进行了评估,发现其忠实度既与模型相关,也与任务相关。
Oct, 2021
本文提出了一种新型的 TaSc 机制,学习任务特定的非上下文信息以扩展原始的 Attention 权重,通过评估测试,证明 TaSc 可以提高 Attention 解释在两种注意机制,五个编码器和五个文本分类数据集上的解释 品质而不牺牲预测性能,并且相对于三种广泛使用的可解释性技术,TaSc 一致提供更加忠实的 Attention 解释。
May, 2021
通过对情感分析、意图检测和主题标记等三个自然语言处理任务中选定的易解释算法与专家解释方法的综合定量比较,我们的研究表明,传统的基于扰动的方法 Shapley value 和 LIME 可以同时实现更高的准确度和用户可访问性,与模型的推理过程、领域专家一致的解释方式。这一发现提示我们在优化解释算法时应当以双重目标为导向,以实现准确度和用户可理解性的双重提高。
Mar, 2024
解释性人工智能(XAI)领域旨在解释黑盒机器学习模型的工作方式,而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性,使得使用者在选择最忠实的解释时感到困惑。
Nov, 2023