自诊断和自去偏见：降低 NLP 中基于语料库的偏见的提案

ACLFeb, 2021

自诊断和自去偏见：降低 NLP 中基于语料库的偏见的提案

Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP

Timo Schick, Sahana Udupa, Hinrich Schütze

TL;DR本文介绍了一种基于自我诊断的解码算法，可减少语言模型产生问题文本的概率。该算法不依赖于手动策划的单词列表，也不需要任何训练数据或模型参数的更改，并认为这是解决语言模型产生偏见文本问题的重要一步。

Abstract

When trained on large, unfiltered crawls from the internet, language models pick up and reproduce all kinds of undesirable biases that can be found in the data: they often generate racist, sexist, violent or otherwise toxic language. As large models require millions of training example

language models bias toxicity self-diagnosis self-debiasing

发现论文，激发创造

诊断和去偏 GPT2 中基于语料库的政治偏见和侮辱

研究探讨了诊断 - 去偏见方法在减少侮辱和政治偏见等两种附加偏见方面的效力，为调查人工智能与人类互动的道德和社会影响不断努力做出贡献。

Nov, 2023

使用有毒语料库对语言模型进行脱毒

本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性，提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性，结果表明有害文本可以显着减少语言生成过程的毒性，为现有去偏见方法提供了补充。

Apr, 2022

解释的力量：走向自动去偏见的仇恨言论检测

本研究提出了一种自动的误用检测器，该检测器依赖于解释方法来检测潜在的偏见，并基于此构建了端到端的去偏扭框架，适用于文本分类器而无需任何外部资源。

Sep, 2022

自动去偏见检测有害语言面临的挑战

由于文本分类器开发中的偏见关联限制了公平性和准确性，因此我们调查了最近介绍的去偏置方法，作用于检测有毒语言的文本分类数据集和模型，重点关注词汇（例如骂人话、侮辱性言论、身份称谓）和方言标记（特别是非裔美国英语）。我们的全面实验表明，现有的方法在防止当前毒性检测器中出现有偏见的行为方面存在局限性。然后，我们提出了一种自动的方言感知数据校正方法作为概念验证。尽管采用了合成标签，但该方法减少了方言与毒性之间的关联。总的来说，我们的发现表明，在训练有毒性偏见性数据的模型时去偏置并不如简单重标记数据以消除现有偏见有效。

Jan, 2021

驾驭内心恶魔：语言模型自我解毒

本文研究了语言模型在训练过程中产生有毒语言并放大的现象，分析研究了提示，解码策略和训练语料对于产生有毒输出的影响，提出一种简单而有效的 “解毒” 方法。和监督基准相比，我们提出的方法在多重设置下显示出更好的毒性降低和生成质量。

Mar, 2022

大型语言模型中的公平性偏差和去偏差之旅

这篇研究使用变换器语言模型研究了其训练数据所带来的偏见问题，并提出了一种去偏方法，得到的去偏模型在下游任务上保持了良好的表现。

May, 2023

预训练语言模型去偏差技术有效性的实证研究

本文调查了五种最近提出的消除算法：CDA、Dropout、Iterative Nullspace Projection、Self-Debias 和 SentenceDebias 的有效性。实验结果显示，Self-Debias 是最有效的去偏置技术。但是现有去偏置技术在减轻非性别偏差方面表现不一致，同时算法会降低模型的语言建模能力，难以确定去偏置的效果。

Oct, 2021

消除自然语言理解模型中的未知偏见

本文提出了一种自我去偏方法，以减少 NLU 模型在不事先知道偏差情况下利用偏差的趋势，并表明此方法不仅具有一般性和互补性，而且还能提高模型的整体鲁棒性。

Sep, 2020

使用条件似然过滤减少语言模型的危害

提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Aug, 2021

自我反馈的危险：自我偏见在大型语言模型中增强

最近的研究表明，自我反馈可以改善大型语言模型在某些任务上的表现，但对其他任务而言则会恶化。我们发现这种矛盾是由于语言模型对自己的输出存在偏见所致。本文通过两个统计量正式定义了语言模型的自我偏见 —— 偏爱其自身生成的内容。我们分析了六个语言模型在翻译、受限文本生成和数学推理任务上的表现。我们发现自我偏见在所有研究的语言模型中普遍存在，并且跨多种语言和任务。我们的分析揭示了自我优化流程虽然可以提高模型输出的流畅度和可理解性，但会进一步放大自我偏见。为了减轻这种偏见，我们发现更大的模型规模和准确评估的外部反馈可以显著减少自我优化流程中的偏见，从而在下游任务中实现实际性能的提升。

Feb, 2024