德语语音识别:详细误差分析
使用一种探测方法,发现了 ASR 系统处理在 L2 英语方言中的发音差异时,出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为,通过确定特定问题的物质来源来提高 ASR 的准确性。
May, 2023
本文介绍了一个收集英语盈利电话会议的语料库,旨在为评估现代自动语音识别系统的实际表现提供一个免费的现实世界参考标准,通过 4 个商业模型的比较,研究了地区口音对模型表现的影响,以及研究了 ASR 系统普遍出现的误差和关键语音特征对模型表现的影响。
Mar, 2022
本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告,同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现,并得出结论:WERs 显著高于最佳报告结果。我们制定了一组准则,可帮助创建高质量注释的现实生活中多领域数据集,以训练和测试强大的 ASR 系统。
Oct, 2020
本文研究使用基于知识的发音词典来提高德语对话语音识别的性能。实验结果表明,相对于增加语言模型数据的大小,使用发音词典可以在低资源语料情况下取得高性能。
Jan, 2023
介绍了一种基于神经网络的自然语言处理方法,用于识别语音识别中的错误和改进语音理解系统的性能。实验结果表明,该方案可以显著降低概念 / 值错误率,并且结合基于条件随机场的 SLU 方法和神经编码器 / 解码器注意力机制,可以识别出置信度区间和不确定性的语义输出片段,进而决定适当的错误处理措施。
May, 2017
该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore 可以在实际应用中辅助 WER,特别是在无障碍应用中,即使模型的精度比典型语音的精度低,模型仍然是有用的。
Sep, 2022
研究使用自我监督学习的深度学习自动语音识别模型在临床设置中处理话语自然性上的困难,并探讨产生的错误对痴呆分类下游任务准确性的影响。结果表明,相对高错误率的自动语音识别系统可以产生更好的下游分类精度而非字面上的听写结果。
Nov, 2022
本文提出了一种简单的技术,通过机器翻译实现 ASR 误差校正的领域自适应,我们使用了 Google ASR 和 ASPIRE 模型进行了实验,结果显示我们的方法可以使 Google ASR 输出的字错率下降 7%,其 BLEU 分数绝对值提高了 4 点;同时,通过流下游任务 Speaker Diarization,我们还评估了 ASR 误差校正,并捕捉了由 ASR 更正而获得的说话人风格、语法、结构和语义改进。
Mar, 2020
使用不同词错误率(WERs)的 ASR 转录对 IEMOCAP,CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估,同时提出了一个统一的 ASR 错误抗干扰框架,并与最佳表现的 ASR 转录进行比较,实现了更低的 WER 和更高的 SER 结果,为 SER 与 ASR 协助的研究提供了洞见。
Jun, 2024
本文研究比较德语与英语语音识别系统的攻击性漏洞,结果表明生成对抗样本所需的计算工作与其语言模型有关,并鼓励在 ASR 的鲁棒性分析中进一步研究与语言相关的特征。
Feb, 2022