Nov, 2023

SABAF: 基于对抗滤波消除神经网络中的强属性偏差

TL;DR该研究旨在提升公平和有保证的人工智能发展中,确保神经网络不依赖受保护属性(例如种族、性别、年龄)进行预测。通过分析现有属性偏差去除方法的局限性,研究发现其在面对强偏差时存在局限,并提出了一种能够缓解这种局限的新方法,该方法在输入空间中使用对抗目标,直接过滤掉受保护属性同时最大程度地保留其他属性,无需特定目标标签,并在强偏差和中等偏差设置下实现了最先进的性能。通过对合成、图像和人口普查数据集的广泛实验证明了理论界限的有效性,并评估了所提方法在消除强属性偏差方面的有效性。