测试预训练语言模型中的刻板印象
为了提高语言模型的公正性,本文提出了多项定义并给出了新的测试和度量方式,旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明,该方法能够在文本生成中减少偏见同时保留重要的上下文信息。
Jun, 2021
通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性,扩展了评估预训练英语语言模型中的刻板偏见的研究范围,发现在多语言环境下分析是非常重要的,并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。
Jul, 2023
本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响,针对现有的评估技术和基准的准确性问题,提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见,并提出了一些缓解这些偏见的提示技术。
Dec, 2022
该论文介绍了 StereoSet,一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集,并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现,同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。
Apr, 2020
本文介绍了一种零样本自我去偏见技术,通过解释和重提出两种方法,利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下,减少九个不同社会群体的刻板印象程度,其中解释能够正确识别无效假设,重提出能够实现最大程度的偏见减少。我们希望本研究能够引发对其他零样本偏见减轻技术的探索。
Feb, 2024
本研究探讨了预训练语言模型捕捉的刻板印象信息类型,提出了第一个包括不同社会群体的刻板属性的数据集,并提出了一种无监督获取预训练语言模型编码的刻板印象的方法,同时将 emergent stereotypes 与其作为基本情感的体现进行关联,以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究,展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。
Sep, 2021
本研究提出了 FairDistillation 方法,使用知识蒸馏构建较小的跨语言语言模型,控制特定偏见,成功缓解刻板印象和代表性危害。FairDistillation 方法可以以较低的成本创建更公平的语言模型。
Jul, 2022
对大型语言模型的研究发现,它们往往存在社会偏见,尤其在印度和西方语境下,而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。
Sep, 2023
多语种大型语言模型中存在刻板印象的泄漏现象,表现为正面、负面和非极性关联在所有语言中都存在,尤其是对印地语敏感度最大,而中文敏感度最小;此外,ChatGPT 与人类评分更加匹配。
Dec, 2023