使用Deep RNN模型和基于WFST解码的端到端语音识别

Jul, 2015

使用Deep RNN模型和基于WFST解码的端到端语音识别

EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding

Yajie Miao, Mohammad Gowayyed, Florian Metze

TL;DR本文介绍了 Eesen 框架，它简化了自动演讲识别系统的构建流程，并采用递归神经网络以及连接时序分类方法进行语音与标签序列的对齐，再基于 WFST 泛化解码的方式实现了自动语音识别，最终在保证较低错误率的情况下提升了识别速度。

Abstract

The performance of automatic speech recognition (ASR) has improved tremendously due to the application of deep neural networks (DNNs). Despite this progress, building a new ASR system remains a challenging task,

发现论文，激发创造

从RNN到DNN的知识转移

本文研究嵌入式系统中小型深度神经网络的训练方法，提出了一种使用递归神经网络进行知识转移的方法，并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络，结果显示相较于基线结果提高了13%的识别准确率。

Apr, 2015

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近8%。

Apr, 2015

语音端到端无ASR关键词搜索

本研究探讨一种使用最少监督训练的无自动语音识别（ASR）的端到端（E2E）系统，用于基于文本查询的关键词搜索（KWS）系统，该系统由三个子系统组成：一个基于递归神经网络（RNN）的声学自动编码器，一个使用从卷积神经网络中学到的嵌入的字符级RNN语言模型，以及一个输入文本查询和声纹嵌入并预测查询是否出现在声纹信息中的前馈神经网络。

Jan, 2017

基于联合CTC-Attention的端到端语音识别的进展，带有深度CNN编码器和RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合CTC和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于VGG网络的深度CNN，CTC网络和注意力解码器共同训练，通过在波束搜索过程中，将CTC预测、注意力解码器预测和单独训练的LSTM语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了5-10%的误差，并且我们的端到端模型击败了传统的混合式ASR系统。

Jun, 2017

探索神经传递器用于端到端语音识别

通过实证比较，证明Seq2Seq和RNN-Transducer模型在不使用语言模型的情况下都优于最佳的CTC模型，使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。

Jul, 2017

使用RNN-Transducer探索流式端到端语音识别的架构、数据和单位

本研究使用循环神经网络传输器（RNN-T）来训练端到端语音识别模型，并探索了不同的模型架构。通过使用字元素（wordpieces），模型的性能进一步得到了提高，最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。

Jan, 2018

大规模语音识别常用端到端模型比较

本研究比较了非流式和流式模式下三种端到端自动语音识别模型，包括循环神经网络转导器（RNN-T）、循环神经网络基于注意力的编码器-解码器（RNN-AED）和Transformer-AED。研究表明，Transformer-AED在流式和非流式模式下的精度最佳，并且在流式模式下如果其编码器可以正确初始化，RNN-T也是一个具有竞争力的模型。与高度优化的混合模型相比，流式RNN-T和Transformer-AED模型均可以获得更好的精度。

May, 2020

提升RNN-T中声音和文本表征的融合

本文提出在深度学习中使用门结构和双线性池化，在自动语音识别领域取得了较大的词错误率的优化。

Jan, 2022

训练和调整RNN转录自动语音识别模型的文本输入整合

本文提出了一种新的文本表示和训练框架，用于对端到端自动语音识别模型进行内部语言模型（LM）的有效适应，仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。

Feb, 2022

4D ASR: CTC、Attention、Transducer和Mask-Predict解码器的联合建模

本论文提出了四解码器联合建模(4D)的CTC，关注机制，RNN-T和掩码预测，旨在通过联合建模提高模型稳健性，在应用场景下轻松切换四个解码器，并通过一次解码方法进一步提高性能。

Dec, 2022