BERTScore 不公平：基于语言模型的文本生成度量中的社会偏见

EMNLPOct, 2022

BERTScore 不公平：基于语言模型的文本生成度量中的社会偏见

BERTScore is Unfair: On Social Bias in Language Model-Based Metrics for Text Generation

Tianxiang Sun, Junliang He, Xipeng Qiu, Xuanjing Huang

TL;DR本文首次对基于预训练语言模型的度量方法中的社会偏见进行了系统研究，并发现相比传统度量方法，最受欢迎的基于预训练语言模型的度量方法在种族、性别、宗教、外貌、年龄和社会经济地位等 6 个敏感属性上显示出显著的社会偏向。此外，研究发现选择度量方法的范式比选择预训练语言模型对公平性的影响更大，我们提出了消除偏见的适配器方案，将其注入到预训练语言模型层中，从而减轻了基于预训练语言模型的度量方法的偏见，同时保持了评估文本生成的高性能。

Abstract

Automatic evaluation metrics are crucial to the development of generative systems. In recent years, pre-trained language model (PLM) based metrics, such as bertscore, have been commonly adopted in various generat

pre-trained language model bertscore social bias debiasing adapters text generation

发现论文，激发创造

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

探索并缓解语言模型中的社会偏见

为了提高语言模型的公正性，本文提出了多项定义并给出了新的测试和度量方式，旨在减少机器学习在文本生成过程中对性别、种族、语言宗教等社会构建的刻板印象所带来的负面影响。实证结果和人工评估表明，该方法能够在文本生成中减少偏见同时保留重要的上下文信息。

Jun, 2021

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

大规模语言模型中的偏见检测: Fine-tuned KcBERT

该论文研究了大型语言模型对社会性偏见的影响，特别是在韩语环境中，通过平衡数据分布和应用去偏的正则化方法，减少种族、性别以及种族偏见。

Mar, 2024

比较内在性别偏见评估方法，无需使用人工标注示例

本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法，该方法不需要使用人工注释样例，而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs，并使用每个 PLM 评估内在性别偏见评估措施。实验表明，所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。

Jan, 2023

LLM 作为自恋评估者：当自我膨胀影响评分

本研究探讨了自然语言处理领域中生成文本内容的自动评估问题，特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差，并揭示出在无参考摘要的情况下，这种评估指标可能受到潜在偏见的影响，强调未来需要开发更可靠的评估协议。

Nov, 2023

分析多种语言 BERT 变体中存在的社会偏见

本研究探讨了预训练语言模型在不同语言中所存在的偏见，提出了一种基于句子假设度量的模板方法来检测偏见，通过该方法分析了每个单语模型。研究发现，检测偏见的方法高度依赖于语言和文化，需要对每种语言和文化的独特表达方式进行深入了解。而与此相关的，我们假设非英语 BERT 模型中更高的社会偏见指数与其训练的用户生成内容有关。

Nov, 2022

ROBBIE: 大规模生成语言模型的稳健偏见评估

评估和改善大型语言模型（LLMs）的公平性，通过使用不同的提示性数据集来测量社会偏见，对比模型之间的偏差和毒性度量，并研究偏差 / 毒性降低技术的效果。我们开源分析代码以鼓励测量未来 LLMs 偏见的广泛研究。

Nov, 2023

自然语言生成自动评估度量中的社会偏见

该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见，发现在一些基于模型的自动评价指标中也存在广泛的社会偏见，并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明，基于模型的评价指标在评估中给予男性假设更多的偏好，并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。

Oct, 2022