语音识别公平性:性能差异的发现和缓解
本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性,通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征,实现对任何人群的提高,特别是在不同口音情境下显示出明显改进。
Jun, 2023
为了确保在不同的音响环境中为不同的人群提供公平性,我们建立了一个系统性的公平评估框架,通过一种新颖且适应性强的评估方法来检查不同模型之间的公平差距,并收集了多种情景和人口学维度的公平评估数据集。我们对 1 个开源和 11 个商业化最先进的 ASR 模型进行了公平评估,结果显示某些模型比其他模型存在更多偏见,这对用户在选择适合特定实际场景的 ASR 模型时提供了公平性指导。我们进一步探讨了模型对特定人口群体的偏见,并观察到音响领域的变化可能导致新的偏见出现。
May, 2024
本文研究了最近三种受欢迎的公平性定义(统计平等,等概念和等机会)在最新的 SR 系 统中的应用情况,测试了 5 种流行的神经架构和 5 种常用的损失函数,以对抗性别和国籍偏见,并发现更复杂的编码器架构符合公平性定义,而损失函数的选择会对 SR 模型的偏见产生显著影响。
Mar, 2023
本研究提出了一个分析讲话者分离公平性的新协议和评分方法,对性别、年龄、口音及发音时长等因素对讲话者分离结果的影响进行了大规模数据集实验,发现讲话者口音和性别会对分离结果产生偏见。
Feb, 2023
我们综述了用于心理健康和神经学障碍的语音数据集,以突出可能存在的陷阱和改进机会,提倡公平和多样性,为建立这个领域的语音数据集提供了一个包含伦理关切的综合清单。
Jun, 2024
通过采用分布式鲁棒优化的方法,我们可以在不考虑特定群体身份的情况下控制少数群体的风险水平,从而避免了现有的经验风险最小化方法在时间推移中导致的表征偏差加剧。在一个真实的文本自动完成任务中,这种方法提高了少数群体用户的满意度。
Jun, 2018
人工智能(AI)在各领域广泛应用,引发对公平性的关注。然而,现行的讨论往往强调基于结果的度量,而对亚组内不同影响缺乏细致考虑。偏见缓解技术不仅影响敏感组之间实例的排名,而且通常也显著影响这些组内实例的排名。这种变化很难解释,并引发对干预有效性的担忧。然而,当前通常使用的准确性公平评估框架很少注意到这些效应。本文挑战用于评估偏见缓解技术的现行指标,认为它们不考虑组内变化,导致预测标签无法反映真实场景。我们提出一个范式转变:首先,我们应该专注于为每个亚组生成最准确的排名。然后,根据这些排名选取个体以满足公平标准和实际考量。
Jan, 2024
本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量,通过对多种固定大小的、精心制作的训练集进行微调,证明了演讲者多样性的重要性,并对 Common Voice 语料库进行了彻底分析,发现了应该被这个数据集的用户考虑的重要缺陷。
Jun, 2023
本文旨在通过实现一个两步训练过程来识别和减轻个人不公平,并利用最近在此领域发表的一些技术,特别是在信贷审批用例中适用的技术。我们还调查了实现个人公平性的技术在实现团体公平性方面的有效程度以及提出了第二度量标准来确定模型如何公平地处理类似的个体,最后呈现了一些与个人不公平减轻技术相关的实验结果。
Nov, 2022