预训练语言模型中衡量代表性伤害的度量指标的实证研究

Jan, 2023

预训练语言模型中衡量代表性伤害的度量指标的实证研究

An Empirical Study of Metrics to Measure Representational Harms in Pre-Trained Language Models

Saghar Hosseini, Hamid Palangi, Ahmed Hassan Awadallah

TL;DR本文通过对普及的预训练语言模型（PTLMs）的大规模数据进行实证分析，探讨测量 PTLMs 中对 13 个弱势人群的隐含偏见和有害内容所产生的表示损害的方法，并发现神经网络的深度对于减轻表示损害有所帮助。

Abstract

Large-scale pre-trained language models (PTLMs) capture knowledge from massive human-written data which contains latent societal biases and toxic contents. In this paper, we leverage the primary task of PTLMs, i.e., language modeling, and propose a new metric to quantify manifested imp

pre-trained language models implicit biases marginalized demographics representational harms deep learning

发现论文，激发创造

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

重新思考对预训练语言模型机制的有效度量构建

提出了一种通过拓扑探针度量预训练语言模型内部关系的方法，并在 BERT-large 上进行实验。基于实验结果，提出了关于 BERT-like 预训练语言模型工作机制的假设，并提出了通过拓扑探针提高特定子模块微调性能的策略。

Oct, 2023

大型预训练语言模型包含人类的偏见：什么是对与错

该研究指出近期基于 transformer 的大型语言模型（LMs）例如 BERT, GPT-2/3，虽然在许多 NLP 任务中表现出色，但是这些 LMs 训练于未过滤的语料库会出现偏差行为。同时，该研究证明这些 LMs 也包含类似于人类的伦理和道德规范，这种 “道德方向” 运用 PCA 等技术可以减弱甚至消除不当的行为，以排除生产有害的信息，该研究应用在 RealToxicityPrompts 测试中展示了这个道德方向可以引导模型产生符合伦理要求的文本。

Mar, 2021

自然语言处理中偏见和伤害的度量

该研究提出了有关 NLP 技术中有关社会偏见的框架和一系列问题，并且通过几个案例研究来验证了我们的框架和记录问题。

Aug, 2021

BERTScore 不公平：基于语言模型的文本生成度量中的社会偏见

本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究，并发现相比传统度量方法，最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外，研究发现选择度量方法的范式比选择预训练语言模型对公平性的影响更大，我们提出了消除偏见的适配器方案，将其注入到预训练语言模型层中，从而减轻了基于预训练语言模型的度量方法的偏见，同时保持了评估文本生成的高性能。

Oct, 2022

超越行为主义的表征伤害：测量与缓减计划

该研究旨在扩大对可代表性危害的定义，通过量化和减轻大型语言模型对认知和情感状态造成的损害，建立一个公平研究的实用度量和减轻的框架。

Jan, 2024

清洗语言模型中的挑战

我们探讨了一些减轻大型语言模型毒性的策略，并分析了这些策略对模型偏差和质量的影响。我们发现：虽然基本的干预策略可以有效地优化先前建立的自动指标，但这是以减少有关边缘化团体的文本和方言的语言模型覆盖率的代价。同时，我们还发现，在强减毒干预之后，人类评分员通常不会同意高自动毒性得分 - 这进一步凸显了仔细评估语言模型毒性涉及到的微妙之处。

Sep, 2021

大型语言模型中毒性的实际评估

该研究介绍了新的 “全面优化毒性”（TET）数据集，由手工设计的提示构成，旨在抵消这些模型的保护层，通过广泛的评估，证明了 TET 在评估几种流行的 LLMs 中毒性意识方面的重要作用，凸显了正常提示下可能隐藏的 LLMs 中的毒性，从而揭示了它们行为中更微妙的问题。

May, 2024