伦理学：在正交参数空间中修正语言模型

Mar, 2024

伦理学：在正交参数空间中修正语言模型

Ethos: Rectifying Language Models in Orthogonal Parameter Space

Lei Gao, Yue Niu, Tingting Tang, Salman Avestimehr, Murali Annavaram

TL;DR我们提出了一种新的高效方法 Ethos，通过将任务向量投影到主成分上，从而识别编码了一般或不希望知识的主成分，以仅使用包含不希望知识的任务向量进行否定，从而最小化对一般模型效用的附带损害，实验证明 Ethos 在消除不希望知识和保持整体模型性能方面比当前的任务算法方法更有效。

Abstract

language models (LMs) have greatly propelled the research on natural language processing. However, LMs also raise concerns regarding the generation of biased or toxic content and the potential disclosure of private information from the training dataset. In this work, we present a new e

language models bias toxicity privacy leakage ethos

发现论文，激发创造

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

使用有毒语料库对语言模型进行脱毒

本研究探讨自回归语言模型生成的上下文倾向于产生不良偏见和毒性，提出使用有害文本作为附加资源组合两种去偏见方法来减少毒性，结果表明有害文本可以显着减少语言生成过程的毒性，为现有去偏见方法提供了补充。

Apr, 2022

语言模型中的系统性攻击性刻板印象偏差（SOS）

我们研究了语言模型中的系统性冒犯性刻板印象偏见，并提出了一种测量方法。我们验证了语言模型中的冒犯性刻板印象偏见，并研究了文献中消除该偏见的去偏方法的有效性。结果表明，所有研究的语言模型都存在冒犯性刻板印象偏见，而去偏方法对冒犯性刻板印象偏见具有负面影响。此外，结果显示冒犯性刻板印象偏见对语言模型在公平性方面具有影响。

Aug, 2023

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

清理语言模型风险边缘化少数群体声音

本文研究了使用 LM 模型在 marginalized groups 中的应用，发现目前已有的毒性去除技术会降低模型在 marginalized groups 语言中的效用，因为这些技术削弱了 LM 模型的抗分布转移能力，导致各种失败。

Apr, 2021

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

由专家指导的毒性符号消除以实现无偏生成

通过使用 DESM 提供的网站，您可以在输入框中输入您的想法或问题，然后 DES 将基于这个输入提供一个自动生成的并针对您输入的文本进行适当恢复或继续的建议。

May, 2024