我们引入了一种针对算法公平性的优化框架,并开发了一种基于梯度的毒化攻击方法,旨在在数据的不同群体之间引入分类偏差,我们实验性地表明,我们的攻击不仅在白盒环境中有效,特别是在黑盒情况下,也对目标模型有很大影响,我们相信我们的发现为完全新的针对算法公平性在不同场景中的对抗攻击定义铺平了道路,并且研究这些漏洞将有助于未来设计更加稳健的算法和对策。
Apr, 2020
为保证公正性,公平机器学习算法致力于消除不同群体间的行为差异,但是研究表明,在训练数据存在偏差的情况下,将同等的重视不同规模和分布的不同群体,可能会与鲁棒性相冲突,攻击者可以通过对样本和标签的控制来攻击群体公平性机器学习,从而在测试数据上显著降低测试准确率,本文评估了多种算法和基准数据集的攻击,分析了公平机器学习的鲁棒性。
Jun, 2020
提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。
May, 2020
对公平性感知的图神经网络进行了对抗攻击研究,提出了 G-FairAttack 攻击框架,可有效地破坏不同类型的图神经网络的公正性而保持攻击不被察觉,以此揭示了公平性感知的图神经网络潜在的漏洞,并引导进一步研究图神经网络在公平性方面的鲁棒性。
Oct, 2023
机器学习中的公平性与公正度计量的滥用及预防措施。
Nov, 2023
本文研究了对抗攻击和训练在公平性和准确性两个方面的影响,提出了一种公平性攻击的统一结构,并证明了不同概念的公平性攻击的等价性。研究表明,统一对抗性训练和攻击在公平性和准确性方面可以同时提高性能。
Mar, 2023
本篇论文提出了一种通用的重构校正方法,可以在满足用户定义的约束条件(如公平性信息)的同时最小化敌手的猜测的更改,并解决了黑盒访问目标模型的情况下反应了培训数据敏感属性的问题。
Sep, 2022
介绍一种新的针对敏感特征的机器学习公平性框架,通过去除敏感信息和最小化敏感特征的边际贡献来改善模型的公平性。实验结果表明,该模型在公平性指标和预测性能方面均优于相关最先进方法。
Sep, 2019
文章提出了一种灵活的方法来提高人工智能系统的公平性,即针对不同族群的公正性问题,利用对抗性扰动来盲化输入数据中与公平性相关的特征,该方法有效且具有出色的性能。
Mar, 2022
本文主要研究了图中预测任务的算法公正问题,提出了一种嵌入不可知的修复过程以实现组内和个体的公正权衡,并在实验中验证了该方法对不同公正概念和预测准确性的显式控制能力。
Oct, 2020