CAPIO 2017 会话式语音识别系统
使用声学建模和语言建模等技术,结合三种模型得出了一个新的 LVCSR 系统, 结果在 Switchboard 上实现了前所未有的接近于完美的 6.6% 的错误率。
Apr, 2016
本文介绍 Microsoft 的会话式语音识别系统,其中采用了近期发展的基于神经网络的声学和语言建模技术,结合机器学习集成技术,使用了多种卷积和循环神经网络,通过 i-vector 模型建模和不带晶格的 MMI 训练,在声学建模架构的所有方面都提供了显著的增益率,使用多个前向和后向运行的 RNNLM 进行语言模型重新加权以及基于词后概率的系统组合,提高了 20%. 最佳单一系统使用 ResNet 架构声学模型与 RNNLM 重新加权,可在 NIST 2000 Switchboard 任务上实现 6.9%的词错误率。 结合系统的误差率为 6.2%,这是对此基准测试中以前报告的结果的改进。
Sep, 2016
本文介绍了微软 2017 年的对话语音识别系统,采用了基于神经网络的声学建模和语言建模的最新进展,加入了 CNN-BLSTM 声学模型和基于字符和对话会话感知的 LSTM 语言模型进行重构,采用两阶段方法进行系统合并,并在合并后通过混淆网络进行单词级投票。该系统在 Switchboard speech recognition 数据集上的评测结果显示,词错误率为 5.1%。
Aug, 2017
本篇论文测试了 Convolutional 和 LSTM acoustic model architectures 在对话语音识别上的效果,并采用 novel spatial smoothing method 和 lattice-free MMI acoustic training 方法,还有 multiple recurrent neural network language modeling approaches 以及 system combination 等方法,实现了与人类专业转录员相媲美的识别准确率。
Oct, 2016
介绍了 IBM 英语电话会话语音识别系统方面的最新进展,使用 maxout 网络、大量输出的网络、部分展开的循环神经网络与卷积网络的联合建模,以及复杂的语言模型重新评分等技术,使得词误率达到了 8.0%,相对之前发表的最佳结果提高了 23%。
May, 2015
在研究中,作者使用多种声学建模、语言建模技术将 LVCSR 系统评价指标降至 5.5%/10.3%,但验证后发现其仍低于人类表现水平,探讨了人类表现水平的定义及如何进一步降低语音识别误差率等问题。
Mar, 2017
本文表明,使用单个头注意力,基于 LSTM 的直接 seq2seq 语音识别模型可以在只有少量数据时(即使只有 300 小时数据),在 Switchboard-300 数据库上实现最先进的识别性能,并且数据增强和谨慎的正则化对于获得这种水平的性能非常重要,然而,更多的数据仍然是更有用的,并且通过使用各种正则化技术和一个相对简单但足够大的模型的组合可以在 Switchboard 和 CallHome 数据集上取得 4.7%和 7.8%的 WER 结果。
Jan, 2020
本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示,以及采用概率比率方法补偿解码模型,成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%,并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率,并在 Switchboard-300 上实现了新的最佳结果,同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。
May, 2021
本文介绍了一种大词汇量语音识别系统,其特点是准确、延迟低,同时其内存和计算资源占用不大,可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标,进一步使用基于 SVD 的压缩方案进一步减小内存占用,同时利用贝叶斯插值构建单一的语言模型,在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率,而以运行速度优于实时的为媒介获得更优秀的结果。
Mar, 2016
使用端到端深度学习开发的演讲识别系统:不需要手工设计组件来模拟背景噪声、混响或者发言人差异,取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法,其关键是优化的 RNN 训练系统以及一组新的数据综合技术,该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率,优于以前的成果,并且与广泛使用的最先进的商业演讲系统相比,Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。
Dec, 2014