自去偏大型语言模型：零样本识别和降低刻板印象

Feb, 2024

自去偏大型语言模型：零样本识别和降低刻板印象

Self-Debiasing Large Language Models: Zero-Shot Recognition and Reduction of Stereotypes

Isabel O. Gallegos, Ryan A. Rossi, Joe Barrow, Md Mehrab Tanjim, Tong Yu...

TL;DR本文介绍了一种零样本自我去偏见技术，通过解释和重提出两种方法，利用大型语言模型来降低刻板印象。我们展示了自我去偏见技术能够在不需要修改训练数据、模型参数或解码策略的情况下，减少九个不同社会群体的刻板印象程度，其中解释能够正确识别无效假设，重提出能够实现最大程度的偏见减少。我们希望本研究能够引发对其他零样本偏见减轻技术的探索。

Abstract

large language models (LLMs) have shown remarkable advances in language generation and understanding but are also prone to exhibiting harmful social biases. While recognition of these behaviors has generated an abundance of bias mitigation techniques, most require modifications to the

large language models social biases bias mitigation techniques zero-shot self-debiasing stereotyping

发现论文，激发创造

大型语言模型中的内部知识偏差发现

通过引入一种全新的、纯粹基于提示的方法，本文揭示和分析大型语言模型中隐藏的社会偏见，为提高自然语言处理系统的透明度和促进公平性做出了贡献。

Oct, 2023

欺骗以启蒙：诱导 LLMs 自省以增强偏见检测和缓解

大型语言模型（LLMs）嵌入了复杂的偏见和刻板印象，可能导致有害的用户体验和社会后果，而模型本身通常没有意识到这一点。本文强调了为 LLMs 配备更好的自我反思和偏见识别机制的重要性。我们的实验表明，通过告知 LLMs 它们生成的内容不代表自己的观点，并对其偏见进行质疑，可以提高 LLMs 识别和解决偏见的能力。这种改进归因于 LLMs 的内部注意力机制和潜在的内部敏感性政策。基于这些发现，我们提出了一个减少 LLMs 输出偏见的新方法。该方法涉及将 LLMs 置于多角色情景中，扮演不同角色，在每个辩论循环的最后担任公正裁判的角色，以暴露偏见。采用排名评分机制来量化偏见水平，从而实现更精细的反思和更优质的输出。比较实验结果证实我们的方法在减少偏见方面优于现有方法，为追求更具伦理 AI 系统的努力作出了有价值的贡献。

Apr, 2024

语言模型中对陈规的理解：朝着鲁棒度量和零 - shot 去偏见的方向

本文研究了预训练语言模型的生成文本中存在的人类偏见和其对不同人口群体的影响，针对现有的评估技术和基准的准确性问题，提出了新的评估框架以更稳健地测量和量化语言模型所表现出的偏见。并使用该框架调查了 GPT-3 的职业性别偏见，并提出了一些缓解这些偏见的提示技术。

Dec, 2022

针对预训练语言模型的少样本指令提示，用于检测社会偏见

提出了一种用于指示预训练语言模型检测社会偏见的 few-shot 方法，该方法用少量标记过的示例和定义的偏见作为指示提供给模型，大型语言模型的检测效果十分准确。

Dec, 2021

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

大型语言模型的零样本位定偏差

本研究提出了一种零样本去偏置（ZOE）框架，通过利用预训练的大型语言模型的无监督回复来减轻位置偏差，从而有效地缓解了四种类型的位置偏差。

Jan, 2024

测试预训练语言模型中的刻板印象

本文研究语言模型中的偏见问题，提出了一种测试内部陈规陈瘤表现的简单方法，并探讨了该方法在性别偏见方面的应用。实验表明，使用无关的知识时，预训练的语言模型表现出一定的鲁棒性，并倾向于选择词语位置和句法结构等浅层语言线索来改变内部陈规陈瘤表现，从而为微调和评估中如何中性地处理语言模型提供了新的思路。

Jan, 2023

大型语言模型中的性别偏见和刻板印象

通过对四个最近发表的大型语言模型进行测试，我们发现大型语言模型在性别刻板印象、职业偏见和句子结构等方面表现出偏见，它们更倾向于选择与性别刻板印象相关的职业，并且在提供自己选择的解释时常常存在事实错误，对于这些模型的偏见行为，我们需要谨慎测试以确保它们对待边缘化个体和社区是公平的。

Aug, 2023

面向大型语言模型的审计：提升基于文本的刻板印象检测

本研究介绍了一个多维度刻板印象数据集以及英文文本的新型刻板印象分类器，并通过多类别训练模型在多种可解释 AI 工具下展示出较好的性能，利用该模型评估了流行的 GPT 模型系列的刻板印象行为，并观察到刻板印象的减少，从而为 LLM 的刻板印象偏见审计和评估建立了一个稳健而实用的框架。

Nov, 2023

自诊断和自去偏见：降低 NLP 中基于语料库的偏见的提案

本文介绍了一种基于自我诊断的解码算法，可减少语言模型产生问题文本的概率。该算法不依赖于手动策划的单词列表，也不需要任何训练数据或模型参数的更改，并认为这是解决语言模型产生偏见文本问题的重要一步。

Feb, 2021