神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

Oct, 2016

神经语音识别：基于声学到词汇 LSTM 模型的大词汇量语音识别

Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition

Hagen Soltau, Hank Liao, Hasim Sak

TL;DR使用 CTC 损失和双向 LSTM RNN 网络，基于整词的声学单位构建连续语音识别系统，无需传统上下文依赖的子词单元和语言模型。

Abstract

We present results that show it is possible to build a competitive, greatly simplified, large vocabulary continuous speech recognition system with whole words as acoustic units. We model the output vocabulary of about 100,000 words directly using →

continuous speech recognition whole words deep bi-directional lstm rnns ctc loss end-to-end all-neural speech recognition

发现论文，激发创造

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

移动设备上的个性化语音识别

本文介绍了一种大词汇量语音识别系统，其特点是准确、延迟低，同时其内存和计算资源占用不大，可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标，进一步使用基于 SVD 的压缩方案进一步减小内存占用，同时利用贝叶斯插值构建单一的语言模型，在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率，而以运行速度优于实时的为媒介获得更优秀的结果。

Mar, 2016

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014

使用双向递归深度神经网络进行大词汇连续语音识别的一次通过

本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法，并通过一种改进的前缀搜索解码算法，使得该方法完全不依赖于基于 HMM 的架构，实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中，取得了较为具有竞争力的错误率，并且证明了双向网络的重要性。

Aug, 2014

推进声学到单词 CTC 模型

本论文研究了基于 CTC 准则的声音到单词模型的问题，并提出采用混合 CTC 模型和混合单元 CTC 模型的解决方案，最终实现了在没有使用语言模型或复杂解码器的情况下取得比传统 CD-CTC 模型更好的结果。

Mar, 2018

基于长短期记忆的循环神经网络结构用于大词汇语音识别

本文介绍了一种基于 LSTM 的循环神经网络架构，用于训练大词汇量的语音识别声学模型，与传统的 RNN 和深度神经网络进行了比较。结果表明，LSTM 模型收敛速度快，对于相对较小的模型具有最先进的语音识别表现。

Feb, 2014

语音识别声学建模深度双向 LSTM RNN 的全面研究

本研究对基于双向长短时记忆（LSTM）循环神经网络（RNN）的自动语音识别（ASR）进行了全面的研究，探索了深度、大小、优化方法等不同因素的影响，并通过实验分析在 Quaero 语料库上实现了提高词错误率的效果，并比较了不同的培训计算时间。

Jun, 2016

LSTM 语音模型通过字形对齐和发音学习

本文介绍了一种基于图音分离的语音识别训练方法，并将其应用于四种印度语言的研究中。实验表明，使用该训练方法训练的模型在大型数据集上具有与基于音素模型相媲美的声学建模效果，并且产生的音频到图音对齐性能优秀，非常适合于实际应用。

Aug, 2020

针对语音识别的端到端注意力模型的改进训练

研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用，通过预置一个高时间缩小系数并在训练过程中逐步降低，以及使用辅助 CTC 损失函数等方法，证明了它的有效性和高性能。同时，还对基于子词单元的 LSTM 语言模型进行了训练，在无语言模型情况下，在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。

May, 2018

为实时语音搜索构建准确低延迟 ASR

本文致力于开发一种精确的 LSTM，注意力 (Attention)，和基于 CTC 的流式自动语音识别模型。这些模型针对印地英语 (Hinglish) 语音搜索应用，并分析了各种用于改进模型准确性的修改方法以及流媒体应用程序中的说话结束检测 (EOS) 的关键要求。该模型在 Flipkart 的语音搜索中获得了显着的性能提升，同时减少了搜索延迟。

May, 2023