使用条件似然过滤减少语言模型的危害

Aug, 2021

使用条件似然过滤减少语言模型的危害

Mitigating harm in language models with conditional-likelihood filtration

Helen Ngo, Cooper Raterink, João G.M. Araújo, Ivan Zhang, Carol Chen...

TL;DR提出一种从网页规模数据集中识别和过滤有害文本的方法，使用预训练语言模型计算特定文档条件下研究员编写的触发词组的对数似然，并根据该结果识别和过滤数据集中的文档，证明在过滤后的数据集上训练的语言模型产生有害文本的倾向更低，性能与未过滤基线相比略有降低，最后探讨了此方法的推广前景及其对语言模型值域的对齐性方面的作用。

Abstract

language models trained on large-scale unfiltered datasets curated from the open web acquire systemic biases, prejudices, and harmful views from their training data. We present a methodology for programmatically

language models systemic biases harmful text dataset filtering language model performance

发现论文，激发创造

通过反事实评估减少语言模型中的情感偏见

本文旨在量化并减少语言模型中表现出的情感偏见，该文分析了在给定的条件下（例如写作提示）和语言模型中，引起生成的文本情感发生变化的敏感属性（例如国家名称，职业，性别）的值变化的影响。我们采用公平机器学习文献中的个体和团体公正度量来量化情感偏见，并证明在两种不同的语料库（新闻文章和维基百科）上训练的大规模模型存在相当高的偏见。我们随后提出使用嵌入和情感预测导出的正则化方法，该方法应用于语言模型的潜在表示。该正则化提高了公正度量，同时保持了可比水平的困惑度和语义相似性。

Nov, 2019

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

自诊断和自去偏见：降低 NLP 中基于语料库的偏见的提案

本文介绍了一种基于自我诊断的解码算法，可减少语言模型产生问题文本的概率。该算法不依赖于手动策划的单词列表，也不需要任何训练数据或模型参数的更改，并认为这是解决语言模型产生偏见文本问题的重要一步。

Feb, 2021

通过大规模语言模型揭示网络社区中的偏见

本文利用自然语言生成中存在的偏见漏洞，探索了六个不同在线社区的偏见。通过对 GPT-Neo 1.3B 进行精细调整，该文评估了生成模型的偏见，并通过不同的人口属性来比较情感和毒性价值，从而揭示了各种模型的偏见类型和强度的差异。此外，本文所生成的示例还展示了在偏见研究中使用自动情感和毒性分类器的局限性。

Jun, 2023

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

从预训练数据到语言模型到下游任务：跟踪导致不公正 NLP 模型的政治偏见

本研究旨在测量大型语言模型中社会和经济偏见的媒体偏见，以及在预训练数据中表现出政治（社会，经济）偏见的先验模型对高风险社会导向任务的公平性的影响。结果发现先验模型确实存在政治倾向，这可能加剧原始数据中的偏见并将其传播到误导检测器之类的下游模型中，本研究讨论了这些发现对 NLP 研究的影响，并提出了减轻不公平的未来方向。

May, 2023

清理语言模型风险边缘化少数群体声音

本文研究了使用 LM 模型在 marginalized groups 中的应用，发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用，因为这些技术削弱了 LM 模型的抗分布转移能力，导致各种失败。

Apr, 2021

語言模型在有害言論檢測中表現出性別流？言論偏見

对社交媒体平台上的内容审查进行分析，研究其对性别多元化言语模式的偏见，并提出五个现成的语言模型在评估这些文本的伤害程度时的性能评估。

May, 2024

英语边缘滥用模型在 Twitter 上对被边缘化群体过度惩罚的基于关键词的方法

本文通过设计一种新的方法来检测和衡量基于文本的模型所涉及的潜在危害的严重性，并将该方法应用于 Twitter 的英语边缘滥用模型，以检测和测量与过度惩罚边缘社区言论相关的问题，并通过增加附加真负面示例来减轻相关危害。

Oct, 2022

减轻人为偏见的冒犯性语言检测的语言模式开发

通过语言数据扩增方法，减少标注过程中的偏见，借助机器的力量提高标注过程的准确性和公平性，以改善跨多种语言的冒犯性语言分类任务，并减少社交媒体上冒犯性内容的传播。

Dec, 2023