深度循环神经网络用于声学建模
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文研究嵌入式系统中小型深度神经网络的训练方法,提出了一种使用递归神经网络进行知识转移的方法,并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络,结果显示相较于基线结果提高了 13% 的识别准确率。
Apr, 2015
本研究对基于双向长短时记忆(LSTM)循环神经网络(RNN)的自动语音识别(ASR)进行了全面的研究,探索了深度、大小、优化方法等不同因素的影响,并通过实验分析在 Quaero 语料库上实现了提高词错误率的效果,并比较了不同的培训计算时间。
Jun, 2016
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解,讨论了可以有效利用可变长度上下文信息的语音识别模型,如 RNN、CNN 及其与其他模型的组合,以及优化了端对端性能的声学模型和鲁棒性训练策略,同时讨论了语音增强和分离等建模技术。
Apr, 2018
本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络,通过合适的正则化和端到端的训练方法,该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7%。
Mar, 2013
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本研究针对多 GPU 设备下,探讨了基于深度 LSTM 的语音识别任务,通过构建深度循环神经网络来提升深层次模型效率,实验结果表明深度 LSTM 网络的性能优于浅层次模型。
Oct, 2014