May, 2020

伦理对手:通过对抗机器学习缓解不公平现象

TL;DR提出了一个框架以减少训练数据集中不公平的代表性,其中使用两个相互操作的对手功能来提高公平性。首先,通过训练模型防止猜测受保护属性的值,同时限制效用损失,实现模型公平性优化。然后,利用对抗机器学习的规避攻击生成新的被错误分类的例子,并用于第一步模型的重新训练和改进增强模型的公平性。将这两个步骤迭代应用,直到显著提高公平性。