非常深的卷积网络用于端到端语音识别

Oct, 2016

非常深的卷积网络用于端到端语音识别

Very Deep Convolutional Networks for End-to-End Speech Recognition

Yu Zhang, William Chan, Navdeep Jaitly

TL;DR本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Abstract

sequence-to-sequence models have shown success in end-to-end speech recognition. However these models have only used shallow acoustic encoder networks. In our work, we successively train very deep convolutional networks

sequence-to-sequence models end-to-end speech recognition convolutional networks computational depth word error rate

发现论文，激发创造

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

用于鲁棒性语音识别的非常深的卷积神经网络

本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略，并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中，该算法的词错误率达到了 7.09％。

Oct, 2016

LVCSR 的非常深卷积神经网络的进展

本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型，提出了一种新的 CNN 设计，通过批量归一化来恢复去除时间池化带来的性能损失，确保模型快速、高效地解决长切分音频识别。

Apr, 2016

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

深度循环神经网络用于声学建模

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近 8%。

Apr, 2015

用于 LVCSR 的非常深的多语言卷积神经网络

本文提出了一种用于 LVCSR 的卷积神经网络架构的多项结构改进，包括使用深度卷积神经网络、多语言 CNN 和多尺度输入特征等方法，通过在多个数据集上训练并应用提出的网络结构，实现了语音识别性能的提升。

Sep, 2015

基于深度卷积神经网络的端到端语音识别

本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Jan, 2017

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

用于自动语音识别的残差卷积 CTC 网络

本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC，其通过残差连接和时间分类损失函数，能够同时利用语音信号的时间和光谱结构，并提出了一种 CTC-based 系统组合方法，可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。

Feb, 2017

语音识别声学建模深度双向 LSTM RNN 的全面研究

本研究对基于双向长短时记忆（LSTM）循环神经网络（RNN）的自动语音识别（ASR）进行了全面的研究，探索了深度、大小、优化方法等不同因素的影响，并通过实验分析在 Quaero 语料库上实现了提高词错误率的效果，并比较了不同的培训计算时间。

Jun, 2016