DARE:针对生物医学和医疗保健应用的强韧文本解释
通过提出 attribution robustness(AR)的概念,使用一系列文本相似性度量来捕捉两个文本的局部性和不可感知性,并提出了 TransformerExplanationAttack(TEA)的概念,利用最先进的语言模型,提取单词替换,从而展示了对于几种文本分类架构的实验,证明了 TEA 在提高对上下文敏感性的同时,更加流畅,更不易被察觉。
Dec, 2022
本研究通过实验挑战了深度网络泛化不良的原因在于恢复 “正确” 特征失败的观点,并提出了一种新的领域调整回归(DARE)方法,该方法根据分布转移的新模型,通过域特定调整来统一一个规范潜在空间,并在该空间中学习预测。在有限环境下,该方法的收敛保证了最小最优预测器,相比之前的方法,该方法表现更好。
Feb, 2022
该研究提出一种名称为 FAR 的新型范式,用于通过在输入的局部领域内最小化属性映射的最大差异来训练模型的鲁棒属性。通过新模型 AAT 和 AdvAAT 的实验表明,所提出的方法在对抗干扰下都更有稳健性。
Oct, 2020
本文介绍了解释深度神经网络的渐变解释性方法,讨论了这些方法如何评估其鲁棒性以及鲁棒性在产生有意义的解释方面的作用,并探讨了渐变方法的局限性和选择解释方法之前应该考虑的最佳实践和属性。
Jul, 2021
本文研究神经网络在医疗影像和欺诈检测等敏感领域应用时面临的鲁棒性问题和对抗攻击,并提出一种受 Lipschitz 约束启发的正则化技术以提高神经网络的抗干扰能力。在 ImageNet 分类任务中,本文设计的神经网络的准确性和鲁棒性面积(ARA)为 0.0053,是之前最先进技术的 2.4 倍,拓展了理解神经网络决策的重要方向。
Jun, 2019
在这项研究中,我们提出了一种无需人工注释的方法来生成可信和忠实的解释。我们展示了对自动医学编码任务的对抗鲁棒性训练如何提高解释的可信度,并引入了一种比现有方法更好的新解释方法 AttInGrad。通过在完全无监督的设置中结合这两个贡献,我们生成了与有监督方法相当甚至更好的解释。我们发布了我们的代码和模型权重。
Jun, 2024
本篇论文介绍了医学领域中解释性人工智能的研究,强调让人们能够透明地理解和信任 AI/ML 技术的重要性,主要关注于图像、* 组学数据和文本三个方面。
Dec, 2017
探讨了在医疗保健领域中机器学习的应用。通过在 MIMIC-III 临床笔记中预测死亡率的任务中,我们展示了各种可完全解释的方法和模型不可知后续属性的可视化技术,同时提供了评估解释质量的通用方法。
Jul, 2021
探索透视医学影像分类应用的影响映射方法和度量评估,提出 EvalAttAI 度量已有度量的局限并进行改进,结果显示:使用 Vanilla Gradient 方法的贝叶斯深度神经网络通常更具可解释性。
Mar, 2023
机器学习模型的可靠性和可信度要求其决策具有可解释性,尤其在安全关键应用中,模型预测和解释(作为特征归因)对微小且不可察觉的输入扰动要具有鲁棒性。最近的研究表明许多归因方法是脆弱的,并提出了改进这些方法或模型训练的方法。我们观察到脆弱归因的两个主要原因:首先,现有的鲁棒性度量指标(例如,top-k 交集)对于合理的本地归因偏移进行了过度惩罚,因此使得随机扰动呈现出强攻击的效果;其次,即使图像中存在多个重要部分,归因可以集中在一个小区域中。为了纠正这一点,我们提出了一些简单的方法来加强现有的度量指标和归因方法,这些方法将像素的局部性纳入鲁棒性度量指标中,并将像素位置的多样性纳入归因中。关于模型训练在归因鲁棒性中的作用,我们经验证实对抗性训练的模型在较小的数据集上具有更鲁棒的归因,然而,在较大的数据集中,这种优势消失了。代码可在此 https URL 获得。
Dec, 2023