深度说话人识别中的偏差与公正研究
本研究提出了一个分析讲话者分离公平性的新协议和评分方法,对性别、年龄、口音及发音时长等因素对讲话者分离结果的影响进行了大规模数据集实验,发现讲话者口音和性别会对分离结果产生偏见。
Feb, 2023
为了确保在不同的音响环境中为不同的人群提供公平性,我们建立了一个系统性的公平评估框架,通过一种新颖且适应性强的评估方法来检查不同模型之间的公平差距,并收集了多种情景和人口学维度的公平评估数据集。我们对 1 个开源和 11 个商业化最先进的 ASR 模型进行了公平评估,结果显示某些模型比其他模型存在更多偏见,这对用户在选择适合特定实际场景的 ASR 模型时提供了公平性指导。我们进一步探讨了模型对特定人口群体的偏见,并观察到音响领域的变化可能导致新的偏见出现。
May, 2024
本文研究语音识别中的不公平现象,通过划分发言者的群组并采取公平措施,比较利用地理和人口学信息与扩展的讲者嵌入技术的群组探测方法,发现在过采样和建模讲者群体成员方面均能缩小不同发言者群体间的差距并提高整体精确度。
Jul, 2022
本文提出了使用保护隐私的方法来提高自动语音识别的公平性和鲁棒性,通过利用无监督学习从发音级别语音特征中提取得到语音聚类中心作为训练模型的额外特征,实现对任何人群的提高,特别是在不同口音情境下显示出明显改进。
Jun, 2023
该研究讨论了使用神经网络建立心脏数据的图像分割模型时,数据库不平衡导致的种族偏见,提出了三种解决方案,并发现 protected group models 的使用最有效。
Jun, 2021
本文通过 VoxCeleb 说话人识别挑战的案例,深入实证研究和分析机器学习的发展过程中的偏差问题,发现每个开发阶段都存在偏差,建议采取实践性措施和未来研究方向以缓解这一问题。
Jan, 2022
本次调查分析了 NLP 模型的社会影响,探讨了 NLP 算法中存在性别、种族和文化偏见的根源,定义了公平性,并说明了 NLP 各个子领域如何减少系统存在的偏见,最终讨论了未来研究如何消除 NLP 算法中的有害偏见。
Mar, 2022
通过分析文档和句子的自然语言表示(即编码),我们发现并研究了这些编码中可能存在的针对不同子群体的偏见,并提出了缓解这种偏见的方法同时保持分类模型的较高准确性。
Apr, 2024
本文使用法语 Common Voice 数据集对 wav2vec~2.0 模型的偏见进行计量,通过对多种固定大小的、精心制作的训练集进行微调,证明了演讲者多样性的重要性,并对 Common Voice 语料库进行了彻底分析,发现了应该被这个数据集的用户考虑的重要缺陷。
Jun, 2023
通过个体差异进行个性化调整,提出了一种适应每个新说话人的 SER 模型的新方法,并提出了用于衡量不同说话人公平性的新颖评估方案。研究结果表明,聚合评估指标可能掩盖个人层面的公平问题,而我们的评估能揭示出这些问题,并且我们提出的方法可以在聚合和分解层面上提高性能。
Jun, 2024