Earnings-22:野外口音实践基准
本文提出了一个 39 小时的包含来自不同金融领域的密集实体语音的 Earnings-21 语料库,用于 ASR 系统的基准测试,并针对命名实体识别进行特殊关注。通过我们最近发布的 fstalign 工具,提供了每个模型在不同划分下的识别能力的坦率分析。分析发现,某些 NER 类别的 ASR 准确率很低,存在着显著的文本理解和使用障碍。Earnings-21 能够评估学术和商业 ASR 系统,使得实体塑造和 WER 在真实世界音频上的进一步研究成为可能。
Apr, 2021
本文质疑了现代自动语音识别系统在基准数据集上达到极低词错误率的报告,同时比较了三种最先进的商用自动语音识别系统在现实生活中的人类对话和公共基准测试中的表现,并得出结论:WERs 显著高于最佳报告结果。我们制定了一组准则,可帮助创建高质量注释的现实生活中多领域数据集,以训练和测试强大的 ASR 系统。
Oct, 2020
提出了一种用于 ASR 系统独立的 WER 估计的假设生成方法,通过使用语音相似或语言上更可能的替代词产生假设,并在域内数据上达到了与 ASR 系统相关的 WER 估计器相似的性能,在域外数据上实现了最先进的性能。
Apr, 2024
该论文介绍了一个新的英语语音数据集 Edinburgh International Accents of English Corpus (EdAcc),用于更好地代表各种英语语音的多样性,经使用 680,000 小时的转录数据进行训练后,最好的模型在印度、牙买加和奈及利亚等地的表现都有所下降,平均词错误率为 19.7%。
Mar, 2023
该研究调查了使用 BERTScore 作为语音识别模型质量评估的度量标准。BERTScore 与 WER 相比,在计算错误类型和评估方面更符合人工评定的标准。因此,BERTScore 可以在实际应用中辅助 WER,特别是在无障碍应用中,即使模型的精度比典型语音的精度低,模型仍然是有用的。
Sep, 2022
使用一种探测方法,发现了 ASR 系统处理在 L2 英语方言中的发音差异时,出现了声素级别的错误并产生了更高的 WER。这项工作系统地说明了 ASR 的行为,通过确定特定问题的物质来源来提高 ASR 的准确性。
May, 2023
研究使用神经网络的自动语音识别系统,如何评估其预测的转录与语音输入的误差类别,评估结果指出交叉体系结构的预测错误,并查找错误来源,提出定量改善数据集和提高 ASR 系统鲁棒性的解决方案。
Apr, 2022
提出了一种新颖的多语言语音识别框架 ——eWER3,通过联合训练声学和词汇表示来估计词错误率,该模型推动了邻近语言的表现,并在估计单词错误率的方法上优于以往的单语言方法(eWER2)。
Apr, 2023
使用不同词错误率(WERs)的 ASR 转录对 IEMOCAP,CMU-MOSI 和 MSP-Podcast 等已知语料库进行 SER 性能评估,同时提出了一个统一的 ASR 错误抗干扰框架,并与最佳表现的 ASR 转录进行比较,实现了更低的 WER 和更高的 SER 结果,为 SER 与 ASR 协助的研究提供了洞见。
Jun, 2024
该研究探讨了在自动语音识别(ASR)研究中备受关注的‘Switchboard benchmark’数据集的一些实用考虑,并提出了修正参考转录和改变评分方法的更详细和可重复的方案。通过这种方案,甚至商业 ASR 系统的 WER 得分也可以低于 5%,研究系统的表现记录下降至 2.3%。此外,还探索了使用标准化评分工具计算 oracle WER 的方法,并比较了短语备选项表示和 utterance/word-level 的结构。最终,使用密集网络和添加字典外单词的方法实现了 0.18%的 oracle WER。
Jun, 2022