要做到鲁棒性和公正：将公正与鲁棒性保持一致

Mar, 2023

要做到鲁棒性和公正：将公正与鲁棒性保持一致

To be Robust and to be Fair: Aligning Fairness with Robustness

Junyi Chai, Xiaoqian Wang

TL;DR本文研究了对抗攻击和训练在公平性和准确性两个方面的影响，提出了一种公平性攻击的统一结构，并证明了不同概念的公平性攻击的等价性。研究表明，统一对抗性训练和攻击在公平性和准确性方面可以同时提高性能。

Abstract

adversarial training has been shown to be reliable in improving robustness against adversarial samples. However, the problem of adversarial train

adversarial training fairness accuracy robustness adversarial attack

发现论文，激发创造

公平性增加对抗性漏洞性

本篇论文研究了深度学习模型在公平性和鲁棒性交叉应用中面临的挑战，并探讨了取得公平性如何降低模型对抗采样的鲁棒性的现象。作者提出了一种简单而有效的解决方案来平衡公平性和鲁棒性之间的权衡关系。

Nov, 2022

为强韧性还是为公平：走向对抗训练中的公平性

研究发现，对于一些平衡的数据集，在执行 Adversarial training algorithms 时将出现不同类别的数据准确度和鲁棒性的严重差异，因此提出了一种名为 Fair-Robust-Learning 的框架以解决这种不公平的问题，并在实验中验证了其有效性。

Oct, 2020

通过平衡对抗训练来提高模型的稳健公平性

本文提出了平衡对抗训练（Balance Adversarial Training）方法，用于解决在对抗训练中不同类别间的鲁棒性和准确性存在严重失衡的问题。通过对两种不公平现象进行观察，即不同类别的对抗样本生成难度差异（源类别公平）和生成对抗样本时不同类别存在不公平偏向（目标类别公平），引入适当的攻击强度和均匀分布约束等措施，能够显著提升指标和缓解鲁棒公平问题。

Sep, 2022

走向公平感知的对抗学习

在这篇论文中，我们提出了一种名为公平感知对抗学习（FAAL）的新的学习范式，通过将鲁棒训练问题重新定义为最小 - 最大 - 最大框架，以确保训练模型的鲁棒性和公平性。具体而言，通过利用分布鲁棒优化，我们的方法旨在在不同类别之间找到最差的分布，解决方法保证了高概率的上界性能。FAAL 可以在仅两个迭代周期内将一个不公平的鲁棒模型调整为公平模型，而不牺牲整体准确性和鲁棒性，实验证明了 FAAL 相对于其他先进方法的卓越性能和高效性。

Feb, 2024

输入扰动对稳健准确公平性的双刃剑

深度神经网络对于对抗性输入扰动具有敏感性，为了同时表征预测准确性和个体公平性对于对抗性扰动的易感性，我们引入了一个新的鲁棒性定义，称为鲁棒准确公平性。我们提出了一种名为 RAFair 的对抗性攻击方法，用以暴露在深度神经网络中存在的虚假或有偏见的对抗缺陷，可以通过精心设计的良性扰动来纠正这些对抗实例，从而使其预测准确且公平。我们的工作探索了对输入扰动在深度神经网络的鲁棒准确公平性上的双刃剑作用，并展示了利用良性扰动来纠正对抗实例的潜力。

Apr, 2024

稳健性与公平性可能相互矛盾：基于类别准确性的实证研究

本文通过经验研究，在对抗训练的模型中发现了分类的精度和稳健性存在类间差异，包括在通常的训练模型中也存在差异。同时，本文还探讨了解决这种类间差异的可能技术和方法。

Oct, 2020

关于对抗偏差和公正机器学习的鲁棒性

为保证公正性，公平机器学习算法致力于消除不同群体间的行为差异，但是研究表明，在训练数据存在偏差的情况下，将同等的重视不同规模和分布的不同群体，可能会与鲁棒性相冲突，攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习，从而在测试数据上显著降低测试准确率，本文评估了多种算法和基准数据集的攻击，分析了公平机器学习的鲁棒性。

Jun, 2020

RobustFair: 公平困惑导向的对抗评估梯度搜索

提出了一种使用 “fairness confusion” 概念的方法来平衡准确性和个体公平性之间的关系，使用由 “fairness confusion directed gradient search” 制作的敌对扰动的方法来改善深层神经网络的 “accurate fairness”，提高准确性和个体公平性。

May, 2023

几何感知实例再加权对抗训练

这篇研究论文介绍了一种新的对抗训练方法，通过根据自然数据点到分类边界的远近来赋予不同的权重，以提高模型的鲁棒性和准确性。

Oct, 2020

对抗特征对齐：通过对抗训练在深度学习中平衡鲁棒性和准确性

本文提出了一种名为 Adversarial Feature Alignment (AFA) 的新型对抗性训练方法，旨在解决深度学习模型在安全性上平衡鲁棒性和准确性的挑战。通过利用对比学习的优化算法，AFA 减轻特征不对齐可能导致误分类的风险，并在实验中展示了其卓越性能。

Feb, 2024