公平 LENS：评估执法语音识别中的公平性

May, 2024

公平 LENS：评估执法语音识别中的公平性

FairLENS: Assessing Fairness in Law Enforcement Speech Recognition

Yicheng Wang, Mark Cusick, Mohamed Laila, Kate Puech, Zhengping Ji...

TL;DR为了确保在不同的音响环境中为不同的人群提供公平性，我们建立了一个系统性的公平评估框架，通过一种新颖且适应性强的评估方法来检查不同模型之间的公平差距，并收集了多种情景和人口学维度的公平评估数据集。我们对 1 个开源和 11 个商业化最先进的 ASR 模型进行了公平评估，结果显示某些模型比其他模型存在更多偏见，这对用户在选择适合特定实际场景的 ASR 模型时提供了公平性指导。我们进一步探讨了模型对特定人口群体的偏见，并观察到音响领域的变化可能导致新的偏见出现。

Abstract

automatic speech recognition (ASR) techniques have become powerful tools, enhancing efficiency in law enforcement scenarios. To ensure fairness for demographic groups in different →

automatic speech recognition fairness evaluation acoustic environments demographic groups model biases

发现论文，激发创造

通过无监督聚类提高端到端语音识别的公平性和鲁棒性

本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性，通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征，实现对任何人群的提高，特别是在不同口音情境下显示出明显改进。

Jun, 2023

使用 Common Voice 数据集建立公平的语音识别系统

本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量，通过对多种固定大小的、精心制作的训练集进行微调，证明了演讲者多样性的重要性，并对 Common Voice 语料库进行了彻底分析，发现了应该被这个数据集的用户考虑的重要缺陷。

Jun, 2023

语音识别公平性：性能差异的发现和缓解

本文研究语音识别中的不公平现象，通过划分发言者的群组并采取公平措施，比较利用地理和人口学信息与扩展的讲者嵌入技术的群组探测方法，发现在过采样和建模讲者群体成员方面均能缩小不同发言者群体间的差距并提高整体精确度。

Jul, 2022

深度说话人识别中的偏差与公正研究

本文研究了最近三种受欢迎的公平性定义（统计平等，等概念和等机会）在最新的 SR 系统中的应用情况，测试了 5 种流行的神经架构和 5 种常用的损失函数，以对抗性别和国籍偏见，并发现更复杂的编码器架构符合公平性定义，而损失函数的选择会对 SR 模型的偏见产生显著影响。

Mar, 2023

FairLex: 一个用于评估法律文本处理中公平性的多语言基准

本文提出了一个数据基准，用于评估预训练的语言模型在下游任务中的公平性，包括四个司法管辖区（欧洲理事会、美国、瑞士和中国）、五种语言（英语、德语、法语、意大利语和汉语）以及五个属性的公平性（性别、年龄、地区、语言和法律领域），并通过几种群组鲁棒性的微调技术评估预训练的语言模型，发现在许多情况下，绩效群体差异非常明显，而这些技术均不能保证公平性，并且不能一致地减少群体差异，此外，对结果进行了定量和定性分析，并强调法律 NLP 鲁棒性方法发展中存在的挑战。

Mar, 2022

衡量语音识别公平性的探索：非正式会话数据集转录

本研究在自动语音识别系统领域对 “Casual Conversations” 进行了研究，发现了多个模型在性别和肤色方面存在显著的词错误率差异。此外，研究呼吁社区开发各种技术以减少这些统计偏差。

Nov, 2021

基于注册的个性化方法，提高语音情感识别中的个体公平性

通过个体差异进行个性化调整，提出了一种适应每个新说话人的 SER 模型的新方法，并提出了用于衡量不同说话人公平性的新颖评估方案。研究结果表明，聚合评估指标可能掩盖个人层面的公平问题，而我们的评估能揭示出这些问题，并且我们提出的方法可以在聚合和分解层面上提高性能。

Jun, 2024

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

自然语言处理和大型语言模型的公平认证

发展公平认证以确保自然语言处理系统的算法公正性和对少数群体的非歧视性。

Jan, 2024

衡量和评估讲话方规整度的方法

本研究提出了一个分析讲话者分离公平性的新协议和评分方法，对性别、年龄、口音及发音时长等因素对讲话者分离结果的影响进行了大规模数据集实验，发现讲话者口音和性别会对分离结果产生偏见。

Feb, 2023