基于深度卷积神经网络的端到端语音识别

Jan, 2017

基于深度卷积神经网络的端到端语音识别

Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks

Ying Zhang, Mohammad Pezeshki, Philemon Brakel, Saizheng Zhang, Cesar Laurent Yoshua Bengio...

TL;DR本文提出将 CNN 与 CTC 相结合的端到端语音识别框架，以实现序列标记；在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统，并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。

Abstract

convolutional neural networks (CNNs) are effective models for reducing spectral variations and modeling spectral correlations in acoustic features for automatic speech recognition (ASR). Hybrid speech recognition systems incorporating CNNs with →

convolutional neural networks hidden markov models gaussian mixture models connectionist temporal classification recurrent neural networks

发现论文，激发创造

用于自动语音识别的残差卷积 CTC 网络

本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC，其通过残差连接和时间分类损失函数，能够同时利用语音信号的时间和光谱结构，并提出了一种 CTC-based 系统组合方法，可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。

Feb, 2017

深度循环神经网络语音识别

本文研究了将深度网络的多层表示与强大的 RNN 模型相结合的模型 - 深度递归神经网络，通过合适的正则化和端到端的训练方法，该模型在 TIMIT 语音识别基准测试中获得了最佳记录得分 17.7％。

Mar, 2013

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

使用卷积神经网络从原始语音信号估计音素类条件概率

本文探究一种利用卷积神经网络（CNN），以原始语音信号作为输入、输出为音素类别条件概率估计的新方法，比较其在 TIMIT 音素识别任务中的表现，发现该方法可以获得与传统方法相当或更好的音素识别性能，表明 CNN 可以自动从原始语音信号中学习与音素分类相关的特征。

Apr, 2013

端到端语音识别的分段循环神经网络

研究了段落循环神经网络在端到端声学建模中的应用，不依赖于外部系统提供特征或分割边界，通过神经网络进行特征提取，具有自我完备性，可实现端到端训练，实验表明在语音识别领域中表现良好。

Mar, 2016

具有门控卷积神经网络的基于字母的语音识别

本研究提出了一种基于 ConvNet 和 CTC（或 ASG）的字母语音模型，实现了与 WSJ 中最佳字母系统的匹配，并在 LibriSpeech 上展现了近乎最先进的表现。

Dec, 2017

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018