对话语音转录中人类和机器误差的比较
在研究中,作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5%/10.3%,但验证后发现其仍低于人类表现水平,探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。
Mar, 2017
本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果,并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法,还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法,实现了与人类专业转录员相媲美的识别准确率。
Oct, 2016
本文研究了自动语音识别技术在口述历史领域上的表现差距,分析并比较了三种人类转录文本和机器转录文本的表现,通过实验的方式,优化了声学模型,在清晰和嘈杂的口述历史采访中,错误率分别为 15.6% 和 23.9%。
Jan, 2022
本研究探讨了与口语转录中出现错误相关的语境,揭示了人类感知语言中的流利性和其他对话语言现象。提供一个新版本的 Switchboard 语料库,用于谨慎地转录口语,并展示了转录错误对自动检测口语中语重心长现象的评估的影响。
Apr, 2019
本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模,以解决自动语音识别系统所引入的误差,并针对多轮对话建立了一个公共语料库,研究各种形式的语音输出的性能差距,并给出了初步分析。
Dec, 2022
通过使用合成语音进行 NLU 模型评估,本文提出了一种方法来研究语音识别错误对自然语言理解模型性能的影响,并结合细粒度的错误分类技术。结果表明,使用合成语音代替音频记录在很大程度上不改变所提出的技术的结果。
Oct, 2023
我们提出了一种用于人类转录错误纠正的人工检错和填充模型(HTEC),其包含两个阶段:Trans-Checker 用于检测和屏蔽错误的单词,Trans-Filler 用于填补屏蔽位置,该模型在转录质量方面表现出较大优势,并提高了 15.1% 的转录质量而不影响转录速度。
Sep, 2023
本研究比较了 2 组手动转录和 5 组自动转录(Google Cloud,IBM Watson,Microsoft Azure,Trint 和 YouTube)的表现,并指出了与不可理解的语音相关的非语言行为。我们发现,手动转录仍优于当前的自动转录。在自动转录服务中,YouTube 提供了最准确的转录服务
Apr, 2019
我们提出了一种可靠的方法来收集语音转录,通过在标注阶段进行置信度估计重新处理和在标注后进行自动词错误校正来提高转录质量。我们发布了 LibriCrowd—— 一个包含 100 小时英语语音的大规模众包数据集。实验结果显示,转录错误率降低了 50% 以上。我们进一步研究了转录错误对 ASR 模型性能的影响,并发现了强相关性。转录质量的提高可以使 ASR 模型的错误率下降 10% 以上。我们将数据集和代码发布给研究社区,以造福广大研究者。
Sep, 2023
本文介绍了使用 CTC 和 LAS 系统,运用多种配准方法,构建自动语音识别模型来转录医生和患者之间的谈话,并提供了对其表现的详细分析。我们的分析表明,在重要的医疗话语上,语音识别模型表现良好,而在非正式对话中存在误差。
Nov, 2017