相似度度量对基于文本可解释 AI 的本地替代模型的准确稳定性估计的影响

Jun, 2024

相似度度量对基于文本可解释 AI 的本地替代模型的准确稳定性估计的影响

The Effect of Similarity Measures on Accurate Stability Estimates for Local Surrogate Models in Text-based Explainable AI

PDF

Christopher Burger, Charles Walter, Thai Le

TL;DR最近的研究探讨了机器学习模型输入的局部替代方法对对抗扰动的脆弱性，其中在复杂模型下，解释被操纵，但原始输入的意义和结构保持相似。虽然已证明许多方法存在弱点，但其中的原因仍未得到深入探究。对可解释人工智能（XAI）上的对抗攻击的核心概念是用于计算一个解释与另一个解释之间差异性的相似度度量。选择不当的相似度度量可能导致对 XAI 方法有效性的错误结论。过度敏感的度量方式导致夸大的脆弱性，而过于粗糙的方式则低估了其弱点。我们研究了多种基于文本排序列表的相似度度量，包括 Kendall 的 Tau、Spearman 的 Footrule 和 Rank-biased Overlap，以确定对常见对抗攻击过程生成的结论产生多大的改变类型的度量或成功阈值。发现某些度量方式过于敏感，导致对稳定性的错误估计。

Abstract

Recent work has investigated the vulnerability of local surrogate methods to adversarial perturbations on a machine learning (ML) model's

vulnerability local surrogate methods adversarial perturbations explainable ai similarity measures

发现论文，激发创造

基于相似性的解释评估

本研究探讨了几种用来解释机器学习模型预测结果的相关性评估指标，并通过三项测试，发现利用损失函数梯度的余弦相似度表现最佳，可作为实践中的推荐选择。同时，研究者还发现某些指标表现不佳，并分析了其失败原因，期望能帮助从业者选择合适的相关性评估指标，同时推动更好的指标研究。

Jun, 2020

基于相似性的链路预测的对抗鲁棒性

本文提出了一种基于可靠查询的网络链路预测方法，通过 Bayesian Stackelberg 游戏框架，自动化地选择可靠查询，增加链路预测的鲁棒性和数据安全性，实验结果表明该方法有效性较好。

Sep, 2019

变形器语言模型中的流浪维度掩盖了表征质量

通过标准化技术等方法探讨相似度测量在 BERT 和 GPT-2 等上下文鉴别模型中的代表性和准确性。我们发现一些不代表整体性质的维度会干扰这些测量，并且这些测量值并不一定代表模型的真实行为。因此，我们认为分析这些模型中基于相似性的操作需要解决这些问题。

Sep, 2021

您能相信您的解释吗？特征归因方法的健壮性测试

评估对非敌对扰动的稳健性并分析神经网络和表格数据集上应用的可解释 AI 方法的稳健性，展示如何利用流形假设和集成方法对稳健性进行深入分析。

Jun, 2024

忠诚度度量中的不一致问题

解释性人工智能（XAI）领域旨在解释黑盒机器学习模型的工作方式，而选择合适的方法以及衡量本地解释的忠实度的当前指标缺乏一致性，使得使用者在选择最忠实的解释时感到困惑。

Nov, 2023

模型相似性降低测试集过度使用

本文证明了在大尺度图像分类基准测试中，最新的提出的模型虽然其准确性相异，但其预测相似性很高，这一相似性缓解了过拟合问题。作者还根据这一相似性给出了一种新的泛化界限的数学模型，能够更好地应用于机器学习中测试数据的重复使用问题。

May, 2019

关于语言模型在视觉概念语义相似度评估方面的可解释性研究

这篇研究探讨了高性能预训练语言模型的表现，并提出了一些可解释的评估指标用于理解检索实例的概念质量，并对具有明显查询语义的对抗性干预进行了测试，揭示了不透明指标中的漏洞并显示了学习语言表示中的模式。

Sep, 2022

LIME 模型在文本分类中解释结果的稳定性分析：对抗扰动的探究

本文验证了先前文献指出的 LIME 对于无序数据稳定性较低的趋势，并在文本数据上探索了 LIME 的稳定性。

May, 2023

定量评估显著性方法：实验研究

本文基于对解释人工智能（XAI）的准确定义和公正衡量标准缺失的讨论，提出了一种广泛的实验研究，重点关注解释方法的忠实度、本地化、假阳性、敏感度检查和稳定性。实验结果表明，在当前所有方法中，梯度加权类激活映射（Grad-CAM）和随机输入抽样解释（RISE）在大多数指标上表现良好。另外，本文还提出了一种筛选指标的方法，以诊断模型分类基础，并探讨了当前指标所忽略的测量因素。

Dec, 2020

基于特征重要性的视觉解释方法的稳定性，正确性和可信度

在可解释性人工智能领域，本文研究了基于图像分类器特征重要性的解释方法的稳定性、正确性和合理性之间的关系，并指出现有的评估指标并不总是一致的，进而提出了考虑被测模型的局部行为的新型评估指标。

Oct, 2023