人机英语会话电话语音识别

Mar, 2017

English Conversational Telephone Speech Recognition by Humans and Machines

George Saon, Gakuto Kurata, Tom Sercu, Kartik Audhkhasi, Samuel Thomas...

TL;DR在研究中，作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5％/10.3％，但验证后发现其仍低于人类表现水平，探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。

Abstract

One of the most difficult speech recognition tasks is accurate recognition of human to human communication. Advances in deep learning over the last few years have produced major →

speech recognition deep learning human performance acoustic modeling language modeling

发现论文，激发创造

实现人类水平的对话语音识别

本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果，并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法，还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法，实现了与人类专业转录员相媲美的识别准确率。

Oct, 2016

IBM 2016 英语语音电话对话识别系统

使用声学建模和语言建模等技术，结合三种模型得出了一个新的 LVCSR 系统，结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。

Apr, 2016

CAPIO 2017 会话式语音识别系统

论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现，提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法，以及一个声学模型适应方案，并在 CallHome 训练语料库上应用了该方法，并在评估集的 CallHome 部分中平均提高了 6.1％（相对误差率），并且在 Switchboard 部分没有性能损失。

Dec, 2017

IBM 2015 年英语电话会话语音识别系统

介绍了 IBM 英语电话会话语音识别系统方面的最新进展，使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模，以及复杂的语言模型重新评分等技术，使得词误率达到了 8.0％，相对之前发表的最佳结果提高了 23％。

May, 2015

对话语音转录中人类和机器误差的比较

本研究旨在探讨自动语音识别和人工转录的差异以及相关性，并通过 Turing 测试验证其性能。

Aug, 2017

Microsoft 2016 会话式语音识别系统

本文介绍 Microsoft 的会话式语音识别系统，其中采用了近期发展的基于神经网络的声学和语言建模技术，结合机器学习集成技术，使用了多种卷积和循环神经网络，通过 i-vector 模型建模和不带晶格的 MMI 训练，在声学建模架构的所有方面都提供了显著的增益率，使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合，提高了 20％. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权，可在 NIST 2000 Switchboard 任务上实现 6.9％的词错误率。结合系统的误差率为 6.2％，这是对此基准测试中以前报告的结果的改进。

Sep, 2016

微软 2017 年会话式语音识别系统

本文介绍了微软 2017 年的对话语音识别系统，采用了基于神经网络的声学建模和语言建模的最新进展，加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构，采用两阶段方法进行系统合并，并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示，词错误率为 5.1％。

Aug, 2017

德国口述历史访谈的人类和自动语音识别表现

本文研究了自动语音识别技术在口述历史领域上的表现差距，分析并比较了三种人类转录文本和机器转录文本的表现，通过实验的方式，优化了声学模型，在清晰和嘈杂的口述历史采访中，错误率分别为 15.6% 和 23.9%。

Jan, 2022

儿童在人机交互中的语音识别：问题解决了吗？

自动语音识别在成人英语语音方面显示出超人的表现，但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量，可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究，并表明性能确实有所提高，新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美，但最佳模型可以正确识别 60.3% 的句子，除了一些小的语法差异，使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。

Apr, 2024

从知识增强到多任务学习：走向类人对话系统

研究人工智能中的对话代理，探索深度学习技术如何提高人工对话代理水平。

Nov, 2022