对抗性反事实视觉解释
通过对对抗样本技术和因果解释方法之间的形式化相似性的系统分析,我们提出了关于机器学习模型与因果解释算法之间的理论和经验相似性的研究,这引发了现有因果解释算法设计和开发的基本问题。
Jun, 2021
提出了一个统一框架,利用图像到图像转换生成对抗网络 (GANs) 生成对抗性样本,以增强可解释性,并扩充数据集以提高对抗性鲁棒性。该框架通过将分类器和辨别器结合成一个单一模型,将真实图像归类为相应的类别,并将生成的图像标记为 “伪造”,以实现这一目标。在具体裂缝的语义分割任务中,评估了方法的有效性,并在水果缺陷检测问题上评估了模型对投影梯度下降 (PGD) 攻击的鲁棒性。我们生成的显著性地图具有很高的描述性,尽管仅在分类标签上进行训练,但与传统分割模型相比,其竞争性 IoU 值表现。此外,该模型对抗性攻击的鲁棒性得到了改善,并展示了辨别器的 “伪造” 值作为预测的不确定性度量。
Oct, 2023
本文提出了一种基于视觉损失的对敌对扰动的简单正则化方法,用于解释图像分类器中的图像分类。这种半稀疏的扰动可以突出对象和感兴趣区域,使其与背景明显不同。通过在多个可解释性基准测试中进行评估,包括局部化、插入删除和指向游戏,证明了感知正则化反事实是图像分类器的有效解释。
Dec, 2019
利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见,通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练,通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法,我们的方法实现了改进的偏见减轻和准确性。
Apr, 2024
该研究提出了新型生成模型,用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验,它证明了这种扰动具有高弄虚率和较小的扰动规模,并且比当前的迭代方法更快。
Dec, 2017
深度学习系统的可解释性要求研究人员找到解释深层神经网络表示语义的方法,尽管对于某些情况,对立解释似乎非常有效,但它们与对抗示例在形式上是等价的,这为可解释性研究人员提供了明显的悖论。
Dec, 2020
基于潜在扩散模型,引入了潜在扩散反事实解释 (LDCE),用以快速生成反事实实例,并专注于数据的重要、语义部分;通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度,展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。
Oct, 2023