测试预训练语言模型中的刻板印象

Jan, 2023

测试预训练语言模型中的刻板印象

Counteracts: Testing Stereotypical Representation in Pre-trained Language Models

Damin Zhang

TL;DR本文研究语言模型中的偏见问题，提出了一种测试内部陈规陈瘤表现的简单方法，并探讨了该方法在性别偏见方面的应用。实验表明，使用无关的知识时，预训练的语言模型表现出一定的鲁棒性，并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现，从而为微调和评估中如何中性地处理语言模型提供了新的思路。

Abstract

language models have demonstrated strong performance on various natural language understanding tasks. Similar to humans, language models could also have their own →

language models bias stereotypical representation gender bias neural language processing

发现论文，激发创造

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

不同语言中的典型偏见有多大差异？

通过系统地分析使用不同语言、单语和多语模型、不同架构的偏向性，扩展了评估预训练英语语言模型中的刻板偏见的研究范围，发现在多语言环境下分析是非常重要的，并且公布了代码库以及翻译数据集的实用指南以鼓励将我们的工作进一步扩展到其他语言。

Jul, 2023

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

StereoSet：测量预训练语言模型中的陈词滥调偏见

该论文介绍了 StereoSet，一个用于评估英语中预训练语言模型中四种基于性别、职业、种族和宗教的陈规陋习偏见的大规模自然数据集，并评估了 BERT、GPT-2、RoBERTa 和 XLNet 等流行的语言模型在其中的表现，同时呈现了一个有隐藏测试集的排行榜来跟踪未来语言模型的偏见。

Apr, 2020

自去偏大型语言模型：零样本识别和降低刻板印象

本文介绍了一种零样本自我去偏见技术，通过解释和重提出两种方法，利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下，减少九个不同社会群体的刻板印象程度，其中解释能够正确识别无效假设，重提出能够实现最大程度的偏见减少。我们希望本研究能够引发对其他零样本偏见减轻技术的探索。

Feb, 2024

大型语言模型中的内部知识偏差发现

通过引入一种全新的、纯粹基于提示的方法，本文揭示和分析大型语言模型中隐藏的社会偏见，为提高自然语言处理系统的透明度和促进公平性做出了贡献。

Oct, 2023

继母很恶毒，学者很自负：预训练语言模型学到了什么？

本研究探讨了预训练语言模型捕捉的刻板印象信息类型，提出了第一个包括不同社会群体的刻板属性的数据集，并提出了一种无监督获取预训练语言模型编码的刻板印象的方法，同时将 emergent stereotypes 与其作为基本情感的体现进行关联，以此更一般化地研究它们的情感影响。通过使用新闻源的微调作为案例研究，展示了我们的方法如何被用于分析由于语言经验而导致的情感和刻板印象的变化。我们的实验揭示了不同社会群体的态度在模型之间的差异以及情感和刻板印象可以在微调阶段迅速变化。

Sep, 2021

公平蒸馏：缓解语言模型的刻板印象

本研究提出了 FairDistillation 方法，使用知识蒸馏构建较小的跨语言语言模型，控制特定偏见，成功缓解刻板印象和代表性危害。FairDistillation 方法可以以较低的成本创建更公平的语言模型。

Jul, 2022

种姓主义但非种族主义？量化印度与西方大型语言模型偏见的差异

对大型语言模型的研究发现，它们往往存在社会偏见，尤其在印度和西方语境下，而引入一种称为 Instruction Prompting 的简单干预方法能够显著减少这种偏见。

Sep, 2023

多语言大型语言模型人类刻板印象泄漏跨语言边界

多语种大型语言模型中存在刻板印象的泄漏现象，表现为正面、负面和非极性关联在所有语言中都存在，尤其是对印地语敏感度最大，而中文敏感度最小；此外，ChatGPT 与人类评分更加匹配。

Dec, 2023