衡量和评估讲话方规整度的方法
本文研究了最近三种受欢迎的公平性定义(统计平等,等概念和等机会)在最新的 SR 系 统中的应用情况,测试了 5 种流行的神经架构和 5 种常用的损失函数,以对抗性别和国籍偏见,并发现更复杂的编码器架构符合公平性定义,而损失函数的选择会对 SR 模型的偏见产生显著影响。
Mar, 2023
本文研究语音识别中的不公平现象,通过划分发言者的群组并采取公平措施,比较利用地理和人口学信息与扩展的讲者嵌入技术的群组探测方法,发现在过采样和建模讲者群体成员方面均能缩小不同发言者群体间的差距并提高整体精确度。
Jul, 2022
本研究提出了一种半自动化的方法,用于创建一个按照 32 个类别(2 种性别、4 个年龄范围和 4 个录制时期)平衡了发言人年龄、性别和录制时期的历时语料库。该方法通过自动处理管道,包括语音检测、背景音乐和重叠语音去除以及说话者分离,大大减少了人工处理,显示出了创建大型目标说话者语料库的潜力。
Apr, 2024
本文介绍了一种从多方会议的语义内容中提取与讲话者相关信息进而改进说话人分离方法的方法,提出了两个子任务(对话检测和发言者切换检测)来有效地从对话语义中提取讲话者信息,并提出了一种简单而有效的算法来联合建模声学和语义信息并获得标识讲话者的文本。实验结果表明,我们的方法在 AISHELL-4 和 AliMeeting 数据集上相对于仅声学的说话人分离系统都有显著的改进。
May, 2023
在线说话者辨识提供了 “谁何时说话” 的答案,可用于完成音频转录和后续处理步骤;本文概述了在线说话者辨识的历史、训练与评估数据集,详细讨论了在线辨识方法与系统,并提出了该领域需要未来研究解决的挑战。
Jun, 2024
使用 DiFair 数据集作为基准,通过设计统一评估指标,研究了许多广泛使用的预训练语言模型和去偏技术,发现存在的性别偏见得到了证实,同时也证明了去偏技术虽然改善了性别偏见问题,但通常会降低模型的有用性别知识。
Oct, 2023
这项研究使用合作性问答来比较确定协议的分离或基于频率和接近度的方法,以及它们对玩家参与度的影响。实验结果表明,我们的程序系统在检测协议方面更精确,达到平均准确率 0.44,而使用分离系统的准确率仅为 0.28。
Nov, 2023
为了确保在不同的音响环境中为不同的人群提供公平性,我们建立了一个系统性的公平评估框架,通过一种新颖且适应性强的评估方法来检查不同模型之间的公平差距,并收集了多种情景和人口学维度的公平评估数据集。我们对 1 个开源和 11 个商业化最先进的 ASR 模型进行了公平评估,结果显示某些模型比其他模型存在更多偏见,这对用户在选择适合特定实际场景的 ASR 模型时提供了公平性指导。我们进一步探讨了模型对特定人口群体的偏见,并观察到音响领域的变化可能导致新的偏见出现。
May, 2024
本文通过 VoxCeleb 说话人识别挑战的案例,深入实证研究和分析机器学习的发展过程中的偏差问题,发现每个开发阶段都存在偏差,建议采取实践性措施和未来研究方向以缓解这一问题。
Jan, 2022