ASTERYX:基于 SAT 的模型无关符号和得分说明方法
通过形式化说明解释是什么,提出一些公理和定义来澄清可解释的人工智能的数学角度。最后,我们提出了一个 Greybox XAI 框架,该框架通过使用符号知识库将 DNN 和透明模型组成。我们从数据集中提取知识库,并使用它来训练透明模型(即逻辑回归)。然后,我们在 RGB 图像上训练编码器 - 解码器架构,以产生类似于透明模型使用的知识库的输出。一旦两个模型独立地训练好后,它们就在组成的形式上用于形成可以解释的预测模型。我们展示了这种新的架构在几个数据集中是准确的和可以解释的。
Sep, 2022
本研究提出了一种满足线性性、递归性和相似性三个重要公理的模型无关的概念解释方法,并与先前的概念解释方法建立了联系,实验证明了该方法在模型选择、优化器选择和使用一种启发式编辑方法改进零样本视觉语言模型方面的实用性。
Jan, 2024
本文提出了一个框架来统一解释人工智能(XAI)领域的挑战。尽管 XAI 方法可以为机器学习模型提供有用的输出,但研究人员和决策者需要注意这些方法的概念和技术限制,这些限制通常导致这些方法本身变成黑匣子。作者使用图像、文本和图形数据,研究了涉及突出显示、关注和图形解释器的三种 XAI 研究途径。尽管这些案例的背景和时间跨度各不相同,但是同样的持续困难仍然出现,这凸显了在此领域要应对 XAI 方法和应用任务之间兼容性挑战的概念突破的必要性。
Jul, 2023
可解释人工智能(Explainable Artificial Intelligence)通过提供准确、一致且稳定的解释,解决机器学习中黑盒模型的透明度问题,其中基于泰勒展开的 T-Explainer 成为了一种有效的特征归因方法。
Apr, 2024
面向可解释人工智能(XAI)的高速范式转变已在近年来出现。高度复杂的机器学习(ML)模型在许多智能任务中蓬勃发展,而问题开始从传统的有效性度量转向更深层次的问题:该模型告诉我关于我的数据什么,它是如何得出这些结论的?XAI 和建模技术之间的不一致可能对这些解释性方法的效力产生质疑。为了解决这些问题,我们提出了一种针对流行的 XAI 的模型不可知方法 SHapley Additive exPlanations(Shap)进行系统的扰动分析。我们设计了一些算法,在动态推理的设置下生成相对特征重要性,这些设置针对一套流行的机器学习和深度学习方法,以及允许我们量化静态情况下生成解释的质量的度量指标。我们提出了特征重要性方法论的分类体系,度量了一致性,并观察了几个数据集中解释模型之间的可量化相似性。
May, 2024
本文提出了一种新的训练方案 —— 用对抗训练解释,以提高模型对不同解释方法的内部解释稳定性,并在实验中展示了它的有效性,包括提高对抗训练的效果和平滑解释,此外还发现解释稳定性与对抗攻击风险息息相关。
Nov, 2021
本篇论文提出一种新颖的扩展方法,将因果关系显式编码进生成输入实例的数据以解释增加信任度和帮助用户评估解释质量的 XAI 方法,并通过实验表明该方法对于拟合黑匣子和解释稳定性均达到了比初始方法更优越的表现。
Dec, 2022