对抗特征对齐：通过对抗训练在深度学习中平衡鲁棒性和准确性

Feb, 2024

对抗特征对齐：通过对抗训练在深度学习中平衡鲁棒性和准确性

Adversarial Feature Alignment: Balancing Robustness and Accuracy in Deep Learning via Adversarial Training

Leo Hyun Park, Jaeuk Kim, Myung Gyo Oh, Jaewoo Park, Taekyoung Kwon

TL;DR本文提出了一种名为 Adversarial Feature Alignment (AFA) 的新型对抗性训练方法，旨在解决深度学习模型在安全性上平衡鲁棒性和准确性的挑战。通过利用对比学习的优化算法，AFA 减轻特征不对齐可能导致误分类的风险，并在实验中展示了其卓越性能。

Abstract

deep learning models continue to advance in accuracy, yet they remain vulnerable to adversarial attacks, which often lead to the misclassification of adversarial examples. →

deep learning models adversarial attacks adversarial training adversarial feature alignment robust accuracy

发现论文，激发创造

针对对抗训练的自适应特征对齐

本文提出了自适应特征对齐的方法，通过预测双 BN 结构中的融合权重，不引入任何超参数，且在不牺牲模型标准精度的情况下，有效地提高了模型的鲁棒性，并且在 CIFAR-10、SVHN 和 tiny-ImageNet 数据集上全面超越了现有的技术。

May, 2021

走向公平感知的对抗学习

在这篇论文中，我们提出了一种名为公平感知对抗学习（FAAL）的新的学习范式，通过将鲁棒训练问题重新定义为最小 - 最大 - 最大框架，以确保训练模型的鲁棒性和公平性。具体而言，通过利用分布鲁棒优化，我们的方法旨在在不同类别之间找到最差的分布，解决方法保证了高概率的上界性能。FAAL 可以在仅两个迭代周期内将一个不公平的鲁棒模型调整为公平模型，而不牺牲整体准确性和鲁棒性，实验证明了 FAAL 相对于其他先进方法的卓越性能和高效性。

Feb, 2024

DAFA：距离感知公平对抗训练

基于理论和实证分析，我们演示了当类别之间的距离减小时，鲁棒公平性会恶化的现象。鉴于这些观察，我们引入了一种称为 “距离感知的公平对抗训练（DAFA）” 的方法，它通过考虑类别之间的相似性来解决鲁棒公平性问题。具体而言，我们的方法给每个类别分配不同的损失权重和对抗边界，并调整它们以在相似类别之间促进鲁棒性的权衡。在各个数据集上的实验结果证明，与现有方法相比，我们的方法不仅具有平均鲁棒准确性，而且还显著提高了最差鲁棒准确性，表明在鲁棒公平性方面有了显著的改进。

Jan, 2024

通过平衡对抗训练来提高模型的稳健公平性

本文提出了平衡对抗训练（Balance Adversarial Training）方法，用于解决在对抗训练中不同类别间的鲁棒性和准确性存在严重失衡的问题。通过对两种不公平现象进行观察，即不同类别的对抗样本生成难度差异（源类别公平）和生成对抗样本时不同类别存在不公平偏向（目标类别公平），引入适当的攻击强度和均匀分布约束等措施，能够显著提升指标和缓解鲁棒公平问题。

Sep, 2022

为强韧性还是为公平：走向对抗训练中的公平性

研究发现，对于一些平衡的数据集，在执行 Adversarial training algorithms 时将出现不同类别的数据准确度和鲁棒性的严重差异，因此提出了一种名为 Fair-Robust-Learning 的框架以解决这种不公平的问题，并在实验中验证了其有效性。

Oct, 2020

通过对手在推荐系统中实现自动特征公平性

通过对敏感特征进行公平处理实现公正的推荐系统的研究中，我们提出了特征公平性作为实现各种特征组合下不同群体之间公平处理的基础。通过平衡特征的普适性来提高整体准确性。我们介绍了通过对抗训练实现无偏特征学习的方法，使用对抗扰动来增强特征表示。对抗方可以改善对少数特征的模型泛化。我们根据特征偏差的两种形式：特征值的频率和组合多样性自动调整对抗策略，并根据此调整扰动强度和对抗训练权重。对于组合多样性较少的特征值，我们应用更强的扰动以提高模型的泛化能力，而对于低频特征，增加其权重以解决训练不平衡问题。我们以广泛应用的因式分解机模型为基础，利用自适应对抗扰动（AAF）方法进行研究。在实验中，AAF 在公平性和准确性衡量指标上优于强基准。AAF 在单特征和多特征任务的物品公平性和用户公平性方面表现出色，展示了其多功能性和可扩展性。为了保持较好的准确性，我们发现对抗扰动必须得到很好的管理：在训练过程中，扰动不应过于持续，并且它们的强度应该减弱。

Sep, 2023

对比对抗训练中通过认知失调缓解实现健壮性

本文介绍了一种新的神经网络训练框架，通过将对比学习与对抗训练相结合，增强了模型对对抗攻击的鲁棒性，同时保持高干净度的准确性。作者发现对比学习有助于提高对抗性鲁棒性，并使用 CIFAR-10 数据集验证了他们的方法，发现其优于其他监督和自监督方法。

Mar, 2022

通过对抗特征相似学习实现对抗演绎的深度伪造检测

深度伪造技术引发了对数字内容真实性的担忧，需要开发有效的检测方法。然而，深伪技术的广泛应用带来了新的挑战，即敌对攻击。本文介绍了对抗特征相似性学习（AFSL）方法，该方法整合了三个基本的深度特征学习范例，旨在区分真实和伪造实例，并最大化对抗扰动和未扰动实例之间的相似性。此外，我们引入了一种正则化技术，最大化了真实和伪造样本之间的不相似性，确保了这两个类别的明确分离。通过在 FaceForensics++、FaceShifter 和 DeeperForensics 等流行的深伪数据集上进行大量实验，我们的方法明显优于其他标准对抗训练防御方法，这进一步证明了我们的方法在保护深伪检测器免受敌对攻击方面的有效性。

Feb, 2024

CFA：类别校准的公平对抗训练

本文探讨了在保证深度神经网络（DNNs）在整体上具有抗对抗性的前提下，如何提高每个类别的对抗鲁棒性和公平性，提出了一种基于类别的校准的公平对抗训练框架，命名为 CFA，实验证明该方法显著提高了对抗鲁棒性和公平性。

Mar, 2023

对抗训练的分割原则

对抗性示例的存在揭示了深度神经网络的基本弱点。我们的主要贡献是一种通用方法，使分类器具有显着的鲁棒性，而其自然准确性的降低仅仅是微小或可忽略的。

Oct, 2023