关于上下文语言表示的内在公正性和外在公正性评估指标

Mar, 2022

关于上下文语言表示的内在公正性和外在公正性评估指标

On the Intrinsic and Extrinsic Fairness Evaluation Metrics for Contextualized Language Representations

Yang Trista Cao, Yada Pruksachatkun, Kai-Wei Chang, Rahul Gupta, Varun Kumar...

TL;DR本文对 19 个语境化语言模型进行了广泛的相关性研究，并发现即使在校正度量不准确、评估数据集中有噪声以及实验配置方式等混淆因素的情况下，内在度量和外在度量不一定在其原始设置中相关。

Abstract

Multiple metrics have been introduced to measure fairness in various natural language processing tasks. These metrics can be roughly categorized into two categories: 1) \emph{extrinsic metrics} for evaluating

fairness natural language processing extrinsic metrics intrinsic metrics contextualized language models

发现论文，激发创造

内在偏见度量与应用偏见无关

本文比较了不同任务和实验条件下数百个已训练模型的内在和外在偏差度量标准之间的关系，发现这些度量标准在所有情况下都没有可靠的相关性。作者呼吁重点关注外在的偏差度量标准，并通过创建新的挑战集和注释测试数据使使用这些度量标准更加可行。在此基础上，作者发布了一份基于性别偏见的仇恨言论的代码、新的内部度量标准和一个注释的测试集。

Dec, 2020

量化自然语言处理中的社会偏见：对外在公平度量的一般化及实证比较

本文提出了三个广义公平度量标准，系统分析了不同的参数选择如何导致公平度量方法之间的差异，以更好地了解和处理 NLP/ML 模型中的不公平性。

Jun, 2021

使用有偏尺度衡量公平性：对预训练语言模型中偏差量化的调查

调查表明，对于预训练语言模型的公平度和偏见进行度量的大量指标之间的比较以及使用这些指标进行评估的工作仍然困难，如果不是完全不可能的。建议避免基于嵌入的指标，并专注于下游任务中的公平度评估，以提高未来的公平度比较和评估。

Dec, 2021

性别去偏见对内部模型表示的影响及其重要性

本文研究证明了在下游任务中模型性能和模型内部表示中的内在偏差之间的关系，并通过外部微调去除偏差，同时测量内在偏差，以评估其消除效果。通过两个任务和多种偏差度量的实验证明了内在偏差指标是评估去偏差效果的更佳指标，可以暴露浅表去偏差的情况，提供了一种更全面的 NLP 模型偏差研究框架和相关常用工具和资源。

Apr, 2022

文本分类的内在性别偏见缓解能力究竟有多强？

本文探讨了内在的性别偏见缓解策略如何应用于下游的文本分类任务，发现单独使用这些内在策略并不能有效地缓解外在的偏见，建议采用其他公平性干预措施。

Jan, 2023

比较内在性别偏见评估方法，无需使用人工标注示例

本文提出了一种对先前提出的内在性别偏见评估方法进行比较的方法，该方法不需要使用人工注释样例，而是通过使用自动挖掘的语料库中的男女性句子来创建多个偏置控制的 PLMs，并使用每个 PLM 评估内在性别偏见评估措施。实验表明，所提出的方法计算的偏见得分与用人工注释样例计算的结果相当。

Jan, 2023

上下文资源分配系统中的公平性：度量和不兼容性结果

该研究提出了一个灵感来自机器学习公平度量的公平性评估框架，可以应用于评估历史政策的公平性质，以及在设计新的（反事实）分配策略时加入约束，其工作总结指出：优先考虑弱势群体的政策通常会导致不同群体之间的不公平性结果，而同时考虑基线风险、治疗效果和群体身份的政策是可能是最公平的。

Dec, 2022

选择你的视角：性别偏见评估中的缺陷

通过评估当前性别偏见评估范式并识别其中的一些缺陷，我们提出了一些更可靠的性别偏见评估指南，强调了衡量模型性别影响的外在偏差度量的重要性，并发现数据集和度量往往是相互耦合的，这是导致获取可靠结论能力受到阻碍的原因之一。

Oct, 2022

大型语言模型公平性调研

大语言模型带来了强大的性能和发展前景，并广泛应用于现实世界。然而，这些模型可能从未经处理的训练数据中捕捉到社会偏见，并将其传播到下游任务。本文全面回顾了关于大语言模型中的公平性的相关研究，介绍了中等规模的模型和大规模的模型分别从内在偏见和外在偏见的角度引入了评估指标和去偏方法，并讨论了公平性发展中的挑战和未来方向。

Aug, 2023

机器翻译指标外部评估

本文研究了自动机器翻译度量在句子级别（段落级别评估）中区分好的翻译和坏的翻译的可靠性，并研究了在较大平台中放置机器翻译组件的成功率检测中 MT 度量的有用性。我们在三个下游跨语言任务（对话状态跟踪，问题回答和语义分析）上评估了最广泛使用的 MT 度量（chrF，COMET，BERTScore 等）的段落级别性能。我们的实验表明，所有的度量标准与下游结果的内在评估显示出微不足道的相关性。我们还发现，神经度量提供的分数大多数不是可解释的，因为其值域未定义。我们的分析表明，将来的 MT 指标应该被设计成产生错误标签而不是得分，以便于外在评估。

Dec, 2022