Siyuan Feng, Olya Kudina, Bence Mark Halpern, Odette Scharenborg
TL;DR本文旨在检测 ASR 系统中存在的性别、年龄、方言和非母语口音等方面引起的偏见,提出针对 ASR 开发的偏见缓解策略,主要关注数据集中由发音差异导致的各种偏见。
Abstract
automatic speech recognition (asr) systems promise to deliver objective
interpretation of human speech. Practice and recent evidence suggests that the
state-of-the-art (SotA) ASRs struggle with the large variatio
本研究针对自动语音识别的性别、种族、病残等偏见现象,探讨为缓解这些歧视提出的去偏见技术,并讨论设计更具通用性和包容性的语音识别技术。对于每种探讨方法,本文提供研究摘要、应用方法和研究结果,并强调其优点和 / 或缺点。最后,还提出了自然语言处理研究人员应在下一级别的 ASR 技术创新方面探索的未来机会。
本研究探讨了现有的最先进预训练自动语音识别(ASR)模型在识别荷兰语为母语的儿童语音和检测阅读错误方面的效果,发现 Hubert Large 在荷兰语儿童语音识别方面达到最佳表现(23.1% 的音位级错误率),而 Whisper(Faster Whisper Large-v2)则在词级表现最佳(9.8% 的词错误率)。此外,Wav2Vec2 Large 和 Whisper 是用于阅读错误检测的两个最佳 ASR 模型,其中 Wav2Vec2 Large 的召回率最高(0.83),而 Whisper 的精确度和 F1 得分均为 0.52。