自动语音识别中的偏见量化

Mar, 2021

Quantifying Bias in Automatic Speech Recognition

Siyuan Feng, Olya Kudina, Bence Mark Halpern, Odette Scharenborg

TL;DR本文旨在检测 ASR 系统中存在的性别、年龄、方言和非母语口音等方面引起的偏见，提出针对 ASR 开发的偏见缓解策略，主要关注数据集中由发音差异导致的各种偏见。

Abstract

automatic speech recognition (asr) systems promise to deliver objective interpretation of human speech. Practice and recent evidence suggests that the state-of-the-art (SotA) ASRs struggle with the large variatio

automatic speech recognition asr bias mitigation word error rates phoneme-level error analysis

发现论文，激发创造

自动语音识别系统为什么不更具包容性？：自动语音识别系统的偏见及其缓解方法。一篇文献综述

本研究针对自动语音识别的性别、种族、病残等偏见现象，探讨为缓解这些歧视提出的去偏见技术，并讨论设计更具通用性和包容性的语音识别技术。对于每种探讨方法，本文提供研究摘要、应用方法和研究结果，并强调其优点和 / 或缺点。最后，还提出了自然语言处理研究人员应在下一级别的 ASR 技术创新方面探索的未来机会。

Nov, 2022

失传于转录：识别和量化自动语音识别系统对不流利语音的准确性偏差

这项研究评估了六个领先的自动语音识别系统对有语吃现象的言语的处理性能，并发现这些系统普遍存在的准确性偏差对不流利言语的处理，导致语法和语义不准确的转录，揭示了当前自动语音识别技术存在的重要差距，强调了有效的偏见缓解策略的必要性。

May, 2024

重音语音识别综述

该研究论文探讨了自动语音识别（ASR）系统在不同语音口音上的普适性问题，分析了当前最有前景的口音识别方法，并强调了其中的关键挑战。

Apr, 2021

语言技术从业者作为语言管理者：在 ASR 中仲裁数据偏见和预测偏见

该研究论文采用语言政策视角，分析了当前工业训练和测试自动语音识别系统的做法如何导致数据偏见和算法偏见，进而导致系统误差差异，并提出将语言资源重新构建为（公共）基础设施的建议。

Feb, 2022

自動語音識別中英語口音的全球表現差異

本篇论文探讨发言者国籍所在国家的地缘政治导向对 ASR 性能的影响，使用全球数据集对若干英语 ASR 服务进行审计并发现 ASR 服务性能与发言者国籍地缘政治与美国的关系具有显著性，尽管有多个语言变量进行控制。通过历史用语维持全球及政治权力来讨论这种偏见。

Aug, 2022

自动说话人识别中的偏差

本文通过 VoxCeleb 说话人识别挑战的案例，深入实证研究和分析机器学习的发展过程中的偏差问题，发现每个开发阶段都存在偏差，建议采取实践性措施和未来研究方向以缓解这一问题。

Jan, 2022

探究自动语音识别系统对 L2 英语语音变异的敏感性

使用一种探测方法，发现了 ASR 系统处理在 L2 英语方言中的发音差异时，出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为，通过确定特定问题的物质来源来提高 ASR 的准确性。

May, 2023

NPTEL MOOC 数千个视频间的单词错误率差异的深入研究

本研究描述了一个庞大的语音数据集的构建过程，并利用该数据集评估了印度不同演讲者的性别、籍贯、年龄和语速对 YouTube 自动字幕和 OpenAI Whisper 模型性能的影响。结果表明需要更具包容性和鲁棒性的 ASR 系统以及更具代表性的数据集进行差异性评估。

Jul, 2023

L1 和 L2 瑞典语说话者的 ASR 结果比较分析

使用词错误率比较母语和非母语、朗读和即兴的瑞典话语在不同的 ASR 服务中的识别结果，并分析可能导致观察到的转录错误的语言因素。

May, 2024

通过自动语音识别在小学中进行阅读疏忽检测

本研究探讨了现有的最先进预训练自动语音识别（ASR）模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果，发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现（23.1% 的音位级错误率），而 Whisper（Faster Whisper Large-v2）则在词级表现最佳（9.8% 的词错误率）。此外，Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型，其中 Wav2Vec2 Large 的召回率最高（0.83），而 Whisper 的精确度和 F1 得分均为 0.52。

Jun, 2024