逆事实例子是否使对抗性训练变得复杂？

CVPRApr, 2024

逆事实例子是否使对抗性训练变得复杂？

Do Counterfactual Examples Complicate Adversarial Training?

Eric Yeats, Cameron Darwin, Eduardo Ortega, Frank Liu, Hai Li

TL;DR我们利用扩散模型研究了鲁棒分类器的鲁棒性和性能之间的权衡。我们的方法引入了一个简单的预训练扩散方法来生成低范数的反事实例：语义上改变的数据导致不同的真实类别成员身份。我们报告在干净的训练数据上，鲁棒模型的置信度和准确性与数据与反事实例的接近程度相关。此外，当直接在反事实例上进行评估时，鲁棒模型的性能非常差，因为它们对反事实例通过低范数和语义变化而变得越来越不变。结果表明，非鲁棒和语义特征之间存在显著的重叠，与普遍的非鲁棒特征不可解释的假设相反。

Abstract

We leverage diffusion models to study the robustness-performance tradeoff of robust classifiers. Our approach introduces a simple, pretrained diffusion method to generate low-norm →

diffusion models robust classifiers counterfactual examples confidence and accuracy non-robust and semantic features

发现论文，激发创造

利用对抗样本进行偏见缓解和准确性增强

利用对抗生成和微调的新方法来减轻计算机视觉模型中的偏见，通过使用欺骗深度神经网络但不欺骗人类的对抗图像作为反事实进行公正模型训练，通过 qualitatively 和 quantitatively 的评估证明了相比于现有方法，我们的方法实现了改进的偏见减轻和准确性。

Apr, 2024

机器学习中的鲁棒反事实解释：一项调查

对于机器学习模型的预测结果影响的人来说，反事实解释（CEs）被认为是提供理想算法解决方案的。然而，最近的工作揭示了与获取 CEs 的最新方法相关的严重问题的存在，因此需要采取技术来减轻风险。在这项调查中，我们回顾了快速发展的稳健 CEs 领域的研究，并对其所考虑的稳健性形式进行了深入分析。我们还讨论了现有解决方案及其限制，为未来的发展提供了坚实的基础。

Feb, 2024

通过自动生成的反事实情况实现文本分类中对伪相关性的鲁棒性

通过增加具有相反特性和标签的反事实数据来训练鲁棒的文本分类器，以强化模型可靠性和泛化性，实验证明，其在人工生成对照样本和原始测试数据上表现出较高的鲁棒性和精准度。

Dec, 2020

针对数据转换下的反事实解释鲁棒性的验证训练

这篇论文介绍了 VeriTraCER，一种联合训练分类器和解释器的方法，明确考虑生成的反事实解释对小型模型偏移的稳健性，从而提供对反事实解释有效性的确定性保证。我们的实证评估表明，VeriTraCER 生成的反事实解释 (1) 对小型模型更新具有可验证的稳健性，(2) 在处理包括随机初始化、leave-one-out 和分布偏移等经验模型更新方面显示出与最先进方法竞争力的稳健性。

Mar, 2024

潜在扩散对抗解释

基于潜在扩散模型，引入了潜在扩散反事实解释 (LDCE)，用以快速生成反事实实例，并专注于数据的重要、语义部分；通过新颖的共识引导机制过滤出与扩散模型的隐式分类器不一致的嘈杂、对抗性梯度，展示了 LDCE 在各种学习范式下的多样性和黑盒模型行为的理解。

Oct, 2023

对抗性反事实视觉解释

本文提出了一种由扰动攻击变成语义上的有意义的扰动来进行反事实解释的方法，该方法在扰动攻击时使用去噪扩散概率模型以避免高频率和超出分布的扰动，从而使得研究目标模型不受其鲁棒性水平的限制。通过在多个测试平台上的实验验证，我们的反事实解释方法展现出明显的优势。

Mar, 2023

通过主动生成成对的反事实，提高分类器的健壮性

本文提出一种利用对抗生成模型自动生成对抗样本并用成对分类器对其自动标注的框架，通过对仅 10% 人工标注的对抗样本数据进行生成，能有效提高情感分类和问题重述任务等自然语言分类器的 18-20% 稳健性和 14-21% 误差缩减。

May, 2023

使用反事实推论的因果视角评估和缓解图像分类器中的偏差

该研究提出了一种利用结构原因模型和 ALI 生成对抗学习算法，生成能满足图像属性之间因果关系约束的反事实例，用于解释和评估神经网络模型的偏差，并使用反事实正则化方法消除分类器训练数据中对皮肤和头发颜色等多维属性的偏见。

Sep, 2020

CoLa-DCE -- 概念引导的潜在扩散对抗性解释

通过 Concept-guided Latent Diffusion Counterfactual Explanations (CoLa-DCE) 方法生成概念导向的反事实解释，提供更高的控制度和更好的可理解性，以及对模型错误的帮助。

Jun, 2024

使用概念性反事实解释有意义地调试模型错误

本研究提出了一种系统化方法 —— 概念反事实解释（CCE），旨在利用人类理解的概念（例如，由于条纹不清晰，这只斑马被错误地分类为狗）解释分类器在特定测试样本上出错的原因，并在多个已知的预置模型上验证了 CCE 的有效性及其对于缓解偏差的作用，同时也确认了 CCE 可以对带有噪声偏旁相同的数据进行准确分析。

Jun, 2021