使用Deep RNN模型和基于WFST解码的端到端语音识别
本文研究嵌入式系统中小型深度神经网络的训练方法,提出了一种使用递归神经网络进行知识转移的方法,并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络,结果显示相较于基线结果提高了13%的识别准确率。
Apr, 2015
本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型,结合了深度神经网络和双向长短期记忆网络,在华尔街日报数据集上相较于传统深度神经网络模型提高了近8%。
Apr, 2015
本研究探讨一种使用最少监督训练的无自动语音识别(ASR)的端到端(E2E)系统,用于基于文本查询的关键词搜索(KWS)系统,该系统由三个子系统组成:一个基于递归神经网络(RNN)的声学自动编码器,一个使用从卷积神经网络中学到的嵌入的字符级RNN语言模型,以及一个输入文本查询和声纹嵌入并预测查询是否出现在声纹信息中的前馈神经网络。
Jan, 2017
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合CTC和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于VGG网络的深度CNN,CTC网络和注意力解码器共同训练,通过在波束搜索过程中,将CTC预测、注意力解码器预测和单独训练的LSTM语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了5-10%的误差,并且我们的端到端模型击败了传统的混合式ASR系统。
Jun, 2017
通过实证比较,证明Seq2Seq和RNN-Transducer模型在不使用语言模型的情况下都优于最佳的CTC模型,使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。
Jul, 2017
本研究使用循环神经网络传输器(RNN-T)来训练端到端语音识别模型,并探索了不同的模型架构。通过使用字元素(wordpieces),模型的性能进一步得到了提高,最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。
Jan, 2018
本研究比较了非流式和流式模式下三种端到端自动语音识别模型,包括循环神经网络转导器(RNN-T)、循环神经网络基于注意力的编码器-解码器(RNN-AED)和Transformer-AED。研究表明,Transformer-AED在流式和非流式模式下的精度最佳,并且在流式模式下如果其编码器可以正确初始化,RNN-T也是一个具有竞争力的模型。与高度优化的混合模型相比,流式RNN-T和Transformer-AED模型均可以获得更好的精度。
May, 2020
本文提出了一种新的文本表示和训练框架,用于对端到端自动语音识别模型进行内部语言模型(LM)的有效适应,仅使用新域的文本数据。实验表明这种方法能够显著提高模型的准确性并适用于不同的数据集。
Feb, 2022
本论文提出了四解码器联合建模(4D)的CTC,关注机制,RNN-T和掩码预测,旨在通过联合建模提高模型稳健性,在应用场景下轻松切换四个解码器,并通过一次解码方法进一步提高性能。
Dec, 2022