- 解释为基础的成员推断攻击的博弈论理解
黑盒机器学习模型的透明性可以通过模型解释来提高,然而这也会被利用来进行会员推断攻击。本文以持续时间随机信号博弈框架为基础,研究了基于解释的阈值攻击,分析了对于一个主动攻击者在不断交互情景下发起会员推断攻击的因素,并提出了数学模型来证明存在一 - ACL探索使用人类理由的文本分类器的模型性能和解释可信度之间的权衡
我们提出了一种方法,将人类决策的解释性文本注释引入文本分类模型,从而提高模型解释的可信度,并通过多目标优化算法在性能和可信度之间达到平衡,从而显著提高模型解释的质量。
- 临床领域知识衍生的模板在气胸分类中改善事后 AI 解释
在患有气胸的诊断背景下,我们提出了一种模板引导方法来改进人工智能解释。我们预计我们的模板指导方法将通过整合临床领域专业知识,为阐明人工智能模型打开一种新方法。
- 概念解释估计应该具备不确定性意识
用可理解的人类概念来解释模型的全局解释的不稳定性问题以及提出了一种基于不确定性的贝叶斯估计方法,可以提高概念解释的可靠性。
- 使用决策树评估全局模型解释的人类可理解性
生成全球模型解释将促进人们更好地理解和做出决策,从而引导设计可信和实用的健康信息系统。
- 自解释式学习
通过学习自我解释的过程,我们介绍了一种名为 LSX 的新学习范式,旨在增强人工智能模型的泛化能力,减轻混杂因素的影响,并提供更具任务特异性和忠实度的模型解释。
- KS-GNNExplainer:基于组织病理图像的全局模型解释与实例说明
我们开发了 KS-GNNExplainer,这是第一个利用现有实例级方法以有效方式提供更具信息和可靠的可解释输出的实例级图神经网络解释器,从而使得基于图形的组织病理学图像分析可以显著受益。我们的实验表明,该解释器能够成为全局模式提取器,从而 - ICLR使用模拟用户研究设计机器学习解释的评估案例研究
通过机器学习模型作为人类用户的代理,提出了一种模拟用户评估的方法(SimEvals),并在电子商务欺诈检测的真实用例中应用,发现在这种情况下,所有考虑到的模型解释方法都与基准模型一样,没有明显的优势,这与原始用户研究的结论相符,因此初步证明 - 深度视觉建模中可解释人工智能的调查:方法和度量
本文是可解释人工智能领域的第一篇调查研究,探讨了深度视觉模型解释方法和度量标准,提供了现有技术的分类组织,阐述了不同属性的度量方法,并就当前趋势、挑战和未来方向进行了深入讨论。
- XAI-Increment: 一种利用 LIME 解释来改进增量学习的新方法
本文提出了一种自定义加权损失函数,其中考虑了真实 LIME 解释和模型预测 LIME 解释之间的欧几里得距离,用于提高模型的泛化能力,并通过增量学习设置来验证其有效性。与传统损失函数相比,使用自定义加权损失函数的训练程序对于 Google - 审计可视化:透明化方法难以检测异常行为
通过定义异常模型来测试透明度方法是否能够反映模型行为的新颖研究指出,现有方法难以识别模型中的细微异常,指示需要进一步发展方法。
- 学习支架:优化模型解释以便教学
本文利用元学习技术,通过优化解释,使得学生模型更有效地学习模拟原始模型,探讨了提供解释的明确目标及其实现方法,在三个自然语言处理和计算机视觉任务中,通过人类注释和用户研究,发现我们提取的解释与人类解释更加贴近。
- 通过查看模型解释来解释预测不确定性
提取存在负面贡献性的词语可以解释使用预训练语言模型预测不确定性,这是对于模型决策辅助的重要补充,实验证明这项技术在模型解释和人类理解模型预测行为方面不可或缺。
- EMNLP序列预测的原理
该研究提出了一种被称为贪婪合理化的算法,通过求解组合优化问题来找到最佳合理化解释,以解释自然语言处理中序列模型的预测结果。研究表明这种方法比其它现有的基线方法更加优秀,同时在一个新的数据集中,这种方法得到的理性方案与人类理性方案较为相似。
- KDD无监督模型解释技术检测对抗样本
本文提出一种使用模型解释方法检测异常样例的无监督方法,并在 MNIST 数据集上展现了该方法高效检测最先进算法所产生的对手样本。
- 透过对抗样本镜头探索反事实解释:理论和实证分析
通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析,我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究,这引发了现有因果解释算法设计和开发的基本问题。
- 如何选择一个解释器?一个基于应用的后续解释评估
提出了一种名为 XAI Test 的应用基准评估方法,旨在评估不同水平的信息提供对最终决策的影响,针对现实世界的欺诈检测任务进行了实验,并使用多种统计方法分析了三种热门解释器的影响。
- 利用模型解释探究图像分类中的偏差
本文通过突出有歧视的特征从而消除对敏感属性的依赖来评估模型解释是否能够高效检测图像分类中的偏见,发现模型解释的弱点在于难以准确评估偏见程度、可能引入额外的偏见分析并且有些情况下效率不高。
- 为模型解释调试测试
研究了后续模型解释对于诊断模型错误的有效性,通过将错误按来源分类为数据、模型和测试时污染性错误,评估了几种解释方法对查找虚假相关性、误标记训练实例、诊断非初始化模型、检测测试时污染输入等错误的能力,发现这些方法能够发现虚假背景错误,但不能明 - 具有差分隐私的模型解释
使用差分隐私机制构建基于特征的模型解释,降低解释数据隐私泄露,评估差分隐私模型及其隐私机制对模型解释质量的影响。