面向区域感知偏见评估指标

Jun, 2024

Towards Region-aware Bias Evaluation Metrics

Angana Borah, Aparna Garimella, Rada Mihalcea

TL;DR该研究通过使用基于地区的方法识别不同地区的性别偏见差异，并使用此方法进行性别偏见评估，同时使用基于词嵌入关联测试 (WEAT) 的评估指标测试不同地区的性别偏见。

Abstract

When exposed to human-generated data, language models are known to learn and amplify societal biases. While previous works introduced benchmarks that can be used to assess the bias in these models, they rely on assumptions that may not be universally true. For instance, a →

language models bias assessment gender bias region-aware word embedding association test (weat)

发现论文，激发创造

自然语言生成自动评估度量中的社会偏见

该论文提出了一种基于 WEAT 和 SEAT 的方法来量化评价指标中的社会偏见，发现在一些基于模型的自动评价指标中也存在广泛的社会偏见，并构建了性别交换的元评价数据集来研究在图像标题和文本摘要任务中性别偏见的潜在影响。结果表明，基于模型的评价指标在评估中给予男性假设更多的偏好，并且在性别交换后评估指标与人类判断之间的相关性通常具有更大的变化。

Oct, 2022

全球之音、地方偏见：跨语言的社会文化偏见

这项研究通过对 24 种语言进行 Word Embedding Association Test (WEAT) 的扩展，以更广阔的研究视角揭示了语言模型的偏见，并通过在全球范围内捕捉有关每种语言的文化相关信息，进一步提高了数据的质量。文章还展示了对毒性、庸能主义等方面的新偏见维度的研究，并通过对印度六种常用语言进行了全面的地区偏见分析，最后通过对嵌入方法的广泛比较强调了这些社会偏见和新维度的重要性，同时强调了解决这些问题对建立更公平的语言模型的必要性。

Oct, 2023

HERB：衡量预训练语言模型中的层次区域偏差

本文针对自然语言处理中存在的公平性问题，提出了一种基于 HERB 方法的区域偏差评估方法，通过对 LMs 学习到的区域偏差进行分析，验证了其存在性，并发现集团地理聚集性对 LMs 的区域偏差具有显著影响。实验结果表明，我们的 hierarchical metric 方法可以有效评估 LMs 的区域偏差，并测量可能传播到下游任务的潜在区域偏差。

Nov, 2022

评估和减轻多语言环境中的性别偏见

这项研究探讨在多语言环境中评估和减少性别偏见在语言模型中的挑战，并通过 DisCo 扩展到不同的印度语言来创建了一个评估预训练屏蔽语言模型中性别偏见的基准，同时评估了各种方法对 SOTA 大规模多语言模型减轻此类偏见的有效性。

Jul, 2023

自动评估指标中的性别偏见：以图像字幕为例的案例研究

本论文通过系统的调研，研究发现了预训练模型存在性别偏见的问题，探讨了预训练模型在图像字幕生成任务中的公平性影响，并提出了一种针对这种问题的解决方案：结合 n-gram 匹配和预训练模型评估度量，以减少性别偏见的影响。

May, 2023

识别和减少单词级语言模型中的性别偏见

本研究以性别为例，用度量方法描述了文本语料中的社会问题偏差。提出了语言模型的正则化损失项以减少性别偏差，最终在多个语料库中验证了该方法的有效性。

Apr, 2019

多维度性别偏见分类

本论文提出了一个对自然语言文本中的性别偏见进行分解的通用框架，通过多维度的性别偏见分类器可以控制生成模型性别偏差的问题，检测任意文本中的性别偏见，并揭示与性别相关的冒犯性语言。

May, 2020

大型语言模型中的偏见和公平性研究综述

大型语言模型中的社会偏见评估和缓解技术的综述，介绍了社会偏见与公平的概念、评估指标和数据集，以及介绍了干预方法的分类和研究趋势，帮助研究人员和实践者更好地理解和防止偏见在大型语言模型中的传播。

Sep, 2023

社会偏见探测：语言模型的公平性基准测试

本研究提出了一种新的框架，用于探索语言模型中的社会偏见，通过采集探索数据集和利用一种新的公平性评分方法，发现语言模型中的偏见更加复杂，并揭示不同宗教身份导致各种模型中最明显的不平等处理。

Nov, 2023

公平度量分数是否足以评估机器学习中的歧视偏见？

论文研究了当前用于评估机器学习算法在文本数据上进行性别歧视的不足之处的度量方法，着重于 Bios 数据集上的职业预测任务，研究表明常用的性别偏差指数在训练集样本较小时具有不可靠性。

Jun, 2023