Apr, 2024

推理时规则擦除器:提取和移除偏见规则以减轻部署模型中的偏见

TL;DR在高风险应用(如招聘和司法)中,公平对于人工智能系统至关重要。本文提出了一种更灵活的公平范式,即推断时间规则擦除器(Eraser),它考虑了无法访问模型权重的情况,从有偏见规则的移除角度解决公平问题。通过贝叶斯分析验证了修改模型输出以擦除有偏见规则的可行性,并通过推断时间规则擦除器从模型的逻辑输出中减去与不公平规则(即对有偏见特征的模型响应)相关的对数值来删除有偏见规则。此外,本文还提出了具体的规则擦除器实现,包括两个阶段:(1)在无法访问权重的模型上执行有限查询,以提取其有偏见规则并创建附加的修正模型;(2)在推断时间,根据规则擦除器中概述的移除策略,从原始模型的输出中排除已提取到修正模型中的有偏见规则。详尽的实验评估表明,所提出的规则擦除器在解决公平问题方面具有有效性和优越性能。