自动说话人识别中的偏差
本文旨在检测 ASR 系统中存在的性别、年龄、方言和非母语口音等方面引起的偏见,提出针对 ASR 开发的偏见缓解策略,主要关注数据集中由发音差异导致的各种偏见。
Mar, 2021
本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量,通过对多种固定大小的、精心制作的训练集进行微调,证明了演讲者多样性的重要性,并对 Common Voice 语料库进行了彻底分析,发现了应该被这个数据集的用户考虑的重要缺陷。
Jun, 2023
本研究针对自动语音识别的性别、种族、病残等偏见现象,探讨为缓解这些歧视提出的去偏见技术,并讨论设计更具通用性和包容性的语音识别技术。对于每种探讨方法,本文提供研究摘要、应用方法和研究结果,并强调其优点和 / 或缺点。最后,还提出了自然语言处理研究人员应在下一级别的 ASR 技术创新方面探索的未来机会。
Nov, 2022
本文综述了说话人识别的几个主要子任务,包括说话人验证、识别、日程管理和鲁棒的说话人识别,着重介绍基于深度学习方法的说话人特征提取、说话人日程管理和鲁棒的说话人识别,以及领域适应和语音增强等方面的最新研究进展。
Dec, 2020
本文研究了最近三种受欢迎的公平性定义(统计平等,等概念和等机会)在最新的 SR 系 统中的应用情况,测试了 5 种流行的神经架构和 5 种常用的损失函数,以对抗性别和国籍偏见,并发现更复杂的编码器架构符合公平性定义,而损失函数的选择会对 SR 模型的偏见产生显著影响。
Mar, 2023
该研究论文采用语言政策视角,分析了当前工业训练和测试自动语音识别系统的做法如何导致数据偏见和算法偏见,进而导致系统误差差异,并提出将语言资源重新构建为(公共)基础设施的建议。
Feb, 2022
本研究探讨语音和说话人识别系统的漏洞,并提出一种分类方法来评估此类漏洞。实验表明,对这些模型的攻击普遍失败,因此需要进一步的工作来提供充分的缓解措施。
Jul, 2020
该研究引入了 Sonos Voice Control Bias Assessment Dataset,一个包含控制人口统计学标签的大型数据集,通过针对音乐领域的语音助手请求(1,038 名说话者,166 小时,170k 音频样本,9,040 个唯一标记的转录文本)进行了控制人口统计多样性(性别、年龄、方言区域和种族)。研究还提出了一种统计的人口统计偏见评估方法,适用于这种特定的用例,并利用口语理解度量标准而非转录准确性,我们认为后者更能代表用户体验。通过考虑一对最先进的自动语音识别和口语理解模型,展示了该数据集和统计方法检测人口统计偏见的能力。结果表明在年龄、方言区域和种族之间性能存在统计上显著差异。多变量测试对于阐明方言区域、性别和年龄之间的混合效应至关重要。
May, 2024
本文以自动语音识别为例,研究具备道德操守的语音数据集应具备的特征,包括多样性、包容性、关键元数据等,以提高模型鲁棒性与可用性,同时保护用户隐私、提升可解释性、促进社会技术与情境模型设计,旨在鼓励研究者与实践者建立更多人性化的数据集,提高模型效果。
May, 2023