端到端语音识别的分段循环神经网络
本研究中,我们使用相同的递归神经网络编码器对 SCRF 和 CTC 方法进行多任务学习,优化它们的插值损失值,发现这样的学习目标可以显著提高识别准确度,并且还表明 CTC 方法可以用于预训练 RNN 编码器,这有助于提高学习联合模型的收敛速度。
Feb, 2017
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。
Mar, 2013
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
该研究研究了一种更直接的方法,即使用循环神经网络来替换隐马尔可夫模型,从而在字符级别直接执行序列预测,通过内置的注意力机制自动学习输入特征与期望字符序列之间的对齐。
Aug, 2015
本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法,并通过一种改进的前缀搜索解码算法,使得该方法完全不依赖于基于 HMM 的架构,实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中,取得了较为具有竞争力的错误率,并且证明了双向网络的重要性。
Aug, 2014