扩散视觉对抗解释
最新的视觉反事实解释方法利用深度生成模型的能力合成了高维度图像的新示例,本研究提出了一个系统的、量化的评估框架以及一组最小的指标,探索了最新的基于扩散的生成模型在自然图像分类的反事实解释方面的关键设计选择的效果,并通过产生数千个反事实解释来对各种复杂度、准确性和鲁棒性的分类器进行了一系列消融实验,为未来反事实解释方法的进一步改进和发展提出了多个方向,通过分享研究方法和解决计算挑战的方法,为该领域的研究人员提供了宝贵的指导,促进了对反事实解释的评估的一致性和透明度。
Aug, 2023
基于潜在扩散模型,引入了潜在扩散反事实解释 (LDCE),用以快速生成反事实实例,并专注于数据的重要、语义部分;通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度,展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。
Oct, 2023
通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释,提供更高的控制度和更好的可理解性,以及对模型错误的帮助。
Jun, 2024
本论文提出 DiME 方法,在使用最近传播模型的同时利用引导生成扩散过程,充分利用目标分类器的梯度生成输入实例的反事实解释,进一步通过提出一个新的度量标准 —— 相关差异,分析了目前评估虚假相关性的方法,并进行实验验证,结果表明该算法在 CelebA 上优于之前的最新研究成果。
Mar, 2022
提出了 VCNet-Variational Counter Net,这是一个用于回归或分类的模型架构,它能够同时生成预测和接近预测类分布的因果解释,该模型在表格数据集上的实证评估结果表明,其结果与最先进的方法相当竞争。
Dec, 2022
我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例:语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上,鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外,当直接在反事实例上进行评估时,鲁棒模型的性能非常差,因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明,非鲁棒和语义特征之间存在显著的重叠,与普遍的非鲁棒特征不可解释的假设相反。
Apr, 2024
该论文提出了 DiVE 方法,通过在分散的潜在空间中学习扰动并使用多样性强制损失进行约束,从而揭示与模型预测相关的多个有价值的解释,以防止模型产生微不足道的解释。实验证明,与之前的最新方法相比,我们的模型可以提高高质量有价值解释的成功率。
Mar, 2021
本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法,该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动,从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证,我们的反事实解释方法展现出明显的优势。
Mar, 2023