深度循环神经网络用于声学建模

Apr, 2015

Deep Recurrent Neural Networks for Acoustic Modelling

William Chan, Ian Lane

TL;DR本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Abstract

We present a novel deep recurrent neural network (RNN) model for acoustic modelling in automatic speech recognition (ASR). We term our contribution as a TC-DNN-BLSTM-DNN model, the model combines a →

recurrent neural network automatic speech recognition deep neural network long short-term memory acoustic modeling

发现论文，激发创造

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

从 RNN 到 DNN 的知识转移

本文研究嵌入式系统中小型深度神经网络的训练方法，提出了一种使用递归神经网络进行知识转移的方法，并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络，结果显示相较于基线结果提高了 13% 的识别准确率。

Apr, 2015

语音识别声学建模深度双向 LSTM RNN 的全面研究

本研究对基于双向长短时记忆（LSTM）循环神经网络（RNN）的自动语音识别（ASR）进行了全面的研究，探索了深度、大小、优化方法等不同因素的影响，并通过实验分析在 Quaero 语料库上实现了提高词错误率的效果，并比较了不同的培训计算时间。

Jun, 2016

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

基于深度学习的声学模型最新进展（更新）

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如 RNN、CNN 及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

提升 RNN-T 中声音和文本表征的融合

本文提出在深度学习中使用门结构和双线性池化，在自动语音识别领域取得了较大的词错误率的优化。

Jan, 2022

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

基于 DNN 性能度量的语音可懂度预测

基于深度神经网络和语音识别技术的语音理解模型，可高度精确地模拟听取语音信息的相关属性，不需要干净的语音参考或单词标签。

Mar, 2022

基于长短时记忆的深度循环神经网络构建及其在大词汇语音识别中的应用

本研究针对多 GPU 设备下，探讨了基于深度 LSTM 的语音识别任务，通过构建深度循环神经网络来提升深层次模型效率，实验结果表明深度 LSTM 网络的性能优于浅层次模型。

Oct, 2014