对话语音转录中人类和机器误差的比较

Aug, 2017

对话语音转录中人类和机器误差的比较

Comparing Human and Machine Errors in Conversational Speech Transcription

Andreas Stolcke, Jasha Droppo

TL;DR本研究旨在探讨自动语音识别和人工转录的差异以及相关性，并通过 Turing 测试验证其性能。

Abstract

Recent work in automatic recognition of conversational telephone speech (CTS) has achieved accuracy levels comparable to human transcribers, although there is some debate how to precisely quantify human performance on this task, using the NIST 2000 CTS evaluation set. This raises the q

automatic recognition conversation telephone speech human vs machine transcription errors correlation turing test

发现论文，激发创造

人机英语会话电话语音识别

在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Mar, 2017

实现人类水平的对话语音识别

本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果，并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法，还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法，实现了与人类专业转录员相媲美的识别准确率。

Oct, 2016

德国口述历史访谈的人类和自动语音识别表现

本文研究了自动语音识别技术在口述历史领域上的表现差距，分析并比较了三种人类转录文本和机器转录文本的表现，通过实验的方式，优化了声学模型，在清晰和嘈杂的口述历史采访中，错误率分别为 15.6% 和 23.9%。

Jan, 2022

语言发生障碍与人类口语转录错误

本研究探讨了与口语转录中出现错误相关的语境，揭示了人类感知语言中的流利性和其他对话语言现象。提供一个新版本的 Switchboard 语料库，用于谨慎地转录口语，并展示了转录错误对自动检测口语中语重心长现象的评估的影响。

Apr, 2019

语音感知对话系统技术挑战赛（DSTC11）

本文涉及针对与书面文本不同的口语输入而设计的任务型对话建模，以解决自动语音识别系统所引入的误差，并针对多轮对话建立了一个公共语料库，研究各种形式的语音输出的性能差距，并给出了初步分析。

Dec, 2022

自然语言理解模型对语音识别错误的鲁棒性评估的一种方法

通过使用合成语音进行 NLU 模型评估，本文提出了一种方法来研究语音识别错误对自然语言理解模型性能的影响，并结合细粒度的错误分类技术。结果表明，使用合成语音代替音频记录在很大程度上不改变所提出的技术的结果。

Oct, 2023

HTEC: 人工听写错误校正

我们提出了一种用于人类转录错误纠正的人工检错和填充模型（HTEC），其包含两个阶段：Trans-Checker 用于检测和屏蔽错误的单词，Trans-Filler 用于填补屏蔽位置，该模型在转录质量方面表现出较大优势，并提高了 15.1% 的转录质量而不影响转录速度。

Sep, 2023

在线自动语音识别系统与难以理解语音的非语言反应比较

本研究比较了 2 组手动转录和 5 组自动转录（Google Cloud，IBM Watson，Microsoft Azure，Trint 和 YouTube）的表现，并指出了与不可理解的语音相关的非语言行为。我们发现，手动转录仍优于当前的自动转录。在自动转录服务中，YouTube 提供了最准确的转录服务

Apr, 2019

人工转写质量提升

我们提出了一种可靠的方法来收集语音转录，通过在标注阶段进行置信度估计重新处理和在标注后进行自动词错误校正来提高转录质量。我们发布了 LibriCrowd—— 一个包含 100 小时英语语音的大规模众包数据集。实验结果显示，转录错误率降低了 50% 以上。我们进一步研究了转录错误对 ASR 模型性能的影响，并发现了强相关性。转录质量的提高可以使 ASR 模型的错误率下降 10% 以上。我们将数据集和代码发布给研究社区，以造福广大研究者。

Sep, 2023

医疗对话语音识别

本文介绍了使用 CTC 和 LAS 系统，运用多种配准方法，构建自动语音识别模型来转录医生和患者之间的谈话，并提供了对其表现的详细分析。我们的分析表明，在重要的医疗话语上，语音识别模型表现良好，而在非正式对话中存在误差。

Nov, 2017