在没有民族信息的情况下进行 NLP 模型去偏见化
本文提出了一种公平去偏算法,通过调整预测模型的信念,尽可能使用敏感信息来进行预测,并在必要性最小化的同时承受一定的惩罚,以达到去偏和任务性能之间的理想平衡,并生成经过去偏的证明。
Oct, 2022
本篇论文调查了 209 篇关于自然语言处理模型中的偏差的论文,提出了社会人口统计学偏见的定义,并确定了研究偏见的三个主要类别:偏见类型,偏见度量和去偏见。作者总结说,目前的去偏见技术是肤浅的,不能真正消除偏见;最后提供了未来工作的建议。
Jun, 2023
本文提出了一种自我去偏方法,以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势,并表明此方法不仅具有一般性和互补性,而且还能提高模型的整体鲁棒性。
Sep, 2020
DAFair 是一种用于减轻语言模型中社会偏见的新方法,通过预定义的典型人口统计文本,并在微调过程中加入正则化项来纠正模型的表示中的偏见,从而在两个任务和两个模型上实证结果显示了我们方法的有效性。此外,即使在有限的人口统计注释数据下,我们的方法也优于常见的去偏方法。
Mar, 2024
本文提出了一种数据干预策略,通过在仅使用 10 个去偏见(干预)的训练样例上微调预训练模型,可显著降低优先考虑任何性别的趋势,从而减少预训练大型语言模型中的性别偏见,而且此方法的使用成本低,是一种高度可行且实用的少量训练样例去偏见方法。
Jun, 2023
通过引入偏见专家(bias experts),我们提出了一个新的去偏框架,改善了辅助模型的偏见识别能力,并且在各种挑战性数据集上始终优于现有技术水平。
Dec, 2023
通过限制处理数据的模型容量,利用其错误来训练更加健壮的模型,从而解决自然语言处理模型对数据集偏见的问题,并且在数据分布发生变化时具有良好的可移植性。
Dec, 2020
本文提出了两种学习策略来训练神经模型,更加稳健,并且更能够迁移到域外的数据集。这些策略利用了数据集的偏差,通过 down-weighting 有偏差的例子,使基础模型减少对偏差的依赖。实验表明,我们的去偏差方法在所有设置中都显著提高了模型的稳健性,并且更好地迁移到其他文本蕴涵数据集上。
Sep, 2019
该研究论文提出,自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置,而不是盲目地消除它,为了实现公平平衡,研究人员建议采用能够与用户互动并提供反馈的交互式方法,从而在任务表现和偏置缓解之间实现更好和公正的平衡,并支持详尽的解释。
Oct, 2022