FineDeb: 为语言模型提供去偏置的框架
我们提出了 DeepSoftDebias 算法,该算法使用神经网络执行 “软去偏见”,并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。
Feb, 2024
本文提出了一个理论框架,解释了语言模型性别偏差的三个候选机制,发现大部分现有的去偏见方法会导致性能下降,但提出了一种不会降低模型性能的方法,即因果检测微调方法。通过数值实验证明,该方法能够在部分缓解性别偏差的同时避免性能下降。
Nov, 2022
最近的研究发现,深度神经网络在许多实际场景中可能表现出偏见。本研究提出了一种快速模型去偏方法(FMD),该方法通过显式的反事实概念识别偏见属性,并使用影响函数量化数据样本的影响,进而设计了一种基于机器遗忘的策略来高效有效地消除模型中的偏见。实验证明,与现有先进方法相比,我们的方法在达到更高或相当的准确性的同时,具有更少的偏见和更低的去偏成本要求。
Oct, 2023
该研究论文提出,自然语言处理模型中的去偏置方法应当使用敏感信息来实现公平去偏置,而不是盲目地消除它,为了实现公平平衡,研究人员建议采用能够与用户互动并提供反馈的交互式方法,从而在任务表现和偏置缓解之间实现更好和公正的平衡,并支持详尽的解释。
Oct, 2022
通过使用下游任务数据对预训练语言模型(PLMs)进行微调, Gender-tuning 方法能够消除 PLMs 中的性别偏见,同时提高 PLMs 在下游任务上的性能。
Jul, 2023
通过引入一种简单而有效的去偏置框架,利用主模型的浅层表示来推导一个偏置模型,并同时训练两个模型,我们在三个广泛研究的自然语言理解任务中演示了该方法的有效性,尽管其简单性,但其在越界测试集上表现不俗,明显优于其他去偏执方法,并且仍然能够提供高性能的内分布结果。
Sep, 2021
使用 DiFair 数据集作为基准,通过设计统一评估指标,研究了许多广泛使用的预训练语言模型和去偏技术,发现存在的性别偏见得到了证实,同时也证明了去偏技术虽然改善了性别偏见问题,但通常会降低模型的有用性别知识。
Oct, 2023
本研究提出了一种新的框架,用于探索语言模型中的社会偏见,通过采集探索数据集和利用一种新的公平性评分方法,发现语言模型中的偏见更加复杂,并揭示不同宗教身份导致各种模型中最明显的不平等处理。
Nov, 2023
通过使用包含女性、男性和刻板印象的单词的各种基准数据集,我们比较了去偏见对多个下游任务性能的影响,实验证明去偏见的影响在所有任务中都被一致地低估。此外,通过单独考虑包含女性、男性和刻板印象单词的实例,而不是所有实例,可以可靠地评估去偏见的影响。
Sep, 2023