大词汇连续语音识别的深度 FSMN

Mar, 2018

Deep-FSMN for Large Vocabulary Continuous Speech Recognition

Shiliang Zhang, Ming Lei, Zhijie Yan, Lirong Dai

TL;DR本文介绍了改进的前馈顺序记忆网络 DFSMN 结构，通过在相邻层的记忆块之间引入跳过连接以启用跨不同层的信息流，并消除了建立非常深层结构时的梯度消失问题。在多个大型语音识别任务中，DFSMN 的性能优于 BLSTM，尤其是使用 CD-Phone 作为建模单元和较低帧率（LFR）进行训练时，DFSMN 的改进更为显著。此外，DFSMN 的记忆块的前瞻滤波器可以轻松地设计，以控制实时应用的延迟。

Abstract

In this paper, we present an improved feedforward sequential memory networks (FSMN) architecture, namely deep-fsmn (DFSMN), by introducing skip connections between memory blocks in adjacent layers. These

deep-fsmn skip connections speech recognition gradient vanishing lookahead filter

发现论文，激发创造

利用持久性内存模型的 DFSMN-SAN 自动语音识别

本文研究将自我关注网络和带增强记忆的自我关注层引入自动语音识别中，提出了一种 DFSMN-SAN 架构来比较两种类型的自我关注层的效果，实验证明该模型在大规模语音识别任务中相较于基准模型有较大幅度的性能提升。

Oct, 2019

快慢递归神经网络

提出了一种新的循环神经网络 Fast-Slow RNN，可以在不同的时间尺度上处理序列数据，并学习复杂的传递函数，实现了字符级语言建模数据集上的最佳效果。

May, 2017

BiFSMN: 用于关键词检测的二值神经网络

本研究提出了 BiFSMN，一种精度高、效率极高的二进制神经网络，它包括了针对一些关键信息的深度蒸馏机制、一种优化的二进制化训练方法、可以自适应提高通用性和效率的纤薄化结构和一个在 ARMv8 设备上的快速位运算核心，实现了在各种数据集上完备性和效率上的优化。 BiFSMN 可以在实际硬件中获得惊人的 22.3 倍加速和 15.5 倍存储空间节省。

Feb, 2022

用于远距离语音识别的高速公路长短期记忆循环神经网络

本研究提出了一种基于深度神经网络的语音识别模型，它使用直连和双向 LSTM 来提高信息传递效率，并在 AMI DSR 任务上取得了显著的性能提升。

Oct, 2015

面向端到端语音识别的神经 FST 类语言模型

提出了一种新方法 -- 神经 - FST 级语言模型（NFCLM），它将神经网络语言模型（NNLM）和有限状态转换器（FST）结合起来用于端到端语音识别，这种方法通过背景 NNLM 模拟通用背景文本和称为 FST 的一系列特定领域实体。

Jan, 2022

BiFSMNv2：将二进制神经网络推向实际网络性能的关键识别应用

本文介绍了一种强大而高效的二进制神经网络 BiFSMNv2，用于边缘端的关键词识别应用中。使用双尺度可调节的 1 位体系结构，独立分离高低频组分以缓解精度和二进制之间的信息不匹配，并提出了学习传播二元化算子，用于二进制网络的前向和后向传播的连续完善。与现有二进制网络相比，BiFSMNv2 在不同数据集上的性能优异，边缘硬件上具有高达 25.1 倍的加速和 20.2 倍的存储节省。

Nov, 2022

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014

基于快速前向连接的深度递归模型用于神经机器翻译

本研究提出了一种快速前向连接的 LSTM 神经网络，并采用交替双向架构来堆叠 LSTM 层。基于这种方法，在 WMT'14 英语 - 法语任务上，我们用单一的注意力模型实现了 BLEU=37.7，并在处理未知词汇和模型集成后取得了 BLEU=40.4 的最好得分。

Jun, 2016

使用双向递归深度神经网络进行大词汇连续语音识别的一次通过

本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法，并通过一种改进的前缀搜索解码算法，使得该方法完全不依赖于基于 HMM 的架构，实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中，取得了较为具有竞争力的错误率，并且证明了双向网络的重要性。

Aug, 2014

语音识别声学建模深度双向 LSTM RNN 的全面研究

本研究对基于双向长短时记忆（LSTM）循环神经网络（RNN）的自动语音识别（ASR）进行了全面的研究，探索了深度、大小、优化方法等不同因素的影响，并通过实验分析在 Quaero 语料库上实现了提高词错误率的效果，并比较了不同的培训计算时间。

Jun, 2016