大型语言模型中的公平性偏差和去偏差之旅
我们提出了 DeepSoftDebias 算法,该算法使用神经网络执行 “软去偏见”,并在各种 SOTA 数据集、准确度指标和复杂的 NLP 任务中进行了全面评估。我们发现 DeepSoftDebias 在减少性别、种族和宗教偏见方面优于当前最先进的方法。
Feb, 2024
本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见,以及在预训练数据中表现出政治(社会,经济)偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向,这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中,本研究讨论了这些发现对 NLP 研究的影响,并提出了减轻不公平的未来方向。
May, 2023
研究旨在探讨最新的预训练模型中是否比旧模型更负责任地发展,以便降低固有的社会偏见以及探究三个最近的模型(ELECTRA,DeBERTa 和 DistilBERT)在减少偏见方面的总体趋势。实验比较这些模型与基准 BERT 的关联指标,并发现所有研究对象都存在有偏差,但完整指标相对于 BERT 有所提高。
Apr, 2023
研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力,为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。
Nov, 2023
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
本文针对大型预训练语言模型中的偏差问题进行调研,分析了偏差发生在模型的哪些阶段以及如何量化和减轻影响。尤其是针对情感相关的偏差问题进行了探讨,旨在提供未来研究的参考和挑战。
Apr, 2022
本研究探讨了在人口统计方面出现的偏差对自然语言处理中的模型和数据集的影响,通过对大量的人工标注文本扰动数据的训练,得出采用人口统计扰动数据进行预训练和调优可以使语言模型更加公平,并且能在不牺牲下游任务性能的前提下减少模型的偏差。
May, 2022
本文基于德文语料库的数据集,在多个体系结构中通过词嵌入联想测试(WEAT)分析了预先训练的德语语言模型的偏见,发现这些语言模型存在实质性的概念、种族和性别偏见,并且在同伴评审数据的微调中,偏见在概念和种族轴上有显着变化。
Sep, 2022
本文研究如何使用计算资源相对较小的方法,结合反事实数据增强技术(CDA)来减少预先训练的语言模型中的偏见,发现参数有效的方法能够有效地减少性别偏见,但对于种族和宗教偏见效果较差,且与全细调的性能相当。
Jun, 2023
本文利用自然语言生成中存在的偏见漏洞,探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整,该文评估了生成模型的偏见,并通过不同的人口属性来比较情感和毒性价值,从而揭示了各种模型的偏见类型和强度的差异。此外,本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。
Jun, 2023