人机英语会话电话语音识别
本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果,并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法,还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法,实现了与人类专业转录员相媲美的识别准确率。
Oct, 2016
使用声学建模和语言建模等技术,结合三种模型得出了一个新的 LVCSR 系统, 结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。
Apr, 2016
论文展示了达到了 NIST 2000 Hub5 英语评估集的最先进表现,提出了一种基于密集连接 LSTMs 并激发于图像分类任务的密集连接卷积网络的方法,以及一个声学模型适应方案,并在 CallHome 训练语料库上应用了该方法,并在评估集的 CallHome 部分中平均提高了 6.1%(相对误差率),并且在 Switchboard 部分没有性能损失。
Dec, 2017
介绍了 IBM 英语电话会话语音识别系统方面的最新进展,使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模,以及复杂的语言模型重新评分等技术,使得词误率达到了 8.0%,相对之前发表的最佳结果提高了 23%。
May, 2015
本文介绍 Microsoft 的会话式语音识别系统,其中采用了近期发展的基于神经网络的声学和语言建模技术,结合机器学习集成技术,使用了多种卷积和循环神经网络,通过 i-vector 模型建模和不带晶格的 MMI 训练,在声学建模架构的所有方面都提供了显著的增益率,使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合,提高了 20%. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权,可在 NIST 2000 Switchboard 任务上实现 6.9%的词错误率。 结合系统的误差率为 6.2%,这是对此基准测试中以前报告的结果的改进。
Sep, 2016
本文介绍了微软 2017 年的对话语音识别系统,采用了基于神经网络的声学建模和语言建模的最新进展,加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构,采用两阶段方法进行系统合并,并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示,词错误率为 5.1%。
Aug, 2017
本文研究了自动语音识别技术在口述历史领域上的表现差距,分析并比较了三种人类转录文本和机器转录文本的表现,通过实验的方式,优化了声学模型,在清晰和嘈杂的口述历史采访中,错误率分别为 15.6% 和 23.9%。
Jan, 2022
自动语音识别在成人英语语音方面显示出超人的表现,但在儿童语音方面表现不佳。最新的数据驱动语音识别技术包括 Transformer 架构和前所未有的训练数据量,可能会为儿童语音识别和面向儿童的社交机器人应用带来突破。我们重新审视了 2017 年的一项关于儿童语音识别的研究,并表明性能确实有所提高,新晋的 OpenAI Whisper 相比领先的商业云服务表现明显更好。尽管转录还不完美,但最佳模型可以正确识别 60.3% 的句子,除了一些小的语法差异,使用本地 GPU 运行的亚秒级转录时间显示出可用于自主儿童 - 机器人语音交互的潜力。
Apr, 2024