ICMLMay, 2024

交叉不公平发现

TL;DRAI 系统在特定人群中产生不公平结果,需要理解特定敏感属性上的偏见。本文通过发现交叉敏感属性下多样化的高偏见子群体,提出了一种基于偏见引导的生成网络(BGGN)。通过将每个偏见值视为奖励,BGGN 可以高效地生成高偏见的交叉敏感属性。实验证明 BGGN 在现实世界的文本和图像数据集上具有多样性且高效的发现能力。进一步评估生成的未见但可能存在不公平的交叉敏感属性,我们将其建模为提示,并使用现代生成型人工智能生成新的文本和图像。频繁生成偏见数据的结果为发现流行现代生成型人工智能系统中潜在的不公平提供了新的见解。警告:本文包含具有冒犯性的生成示例。