用于 LVCSR 的非常深的多语言卷积神经网络

Sep, 2015

用于 LVCSR 的非常深的多语言卷积神经网络

Very Deep Multilingual Convolutional Neural Networks for LVCSR

Tom Sercu, Christian Puhrsch, Brian Kingsbury, Yann LeCun

TL;DR本文提出了一种用于 LVCSR 的卷积神经网络架构的多项结构改进，包括使用深度卷积神经网络、多语言 CNN 和多尺度输入特征等方法，通过在多个数据集上训练并应用提出的网络结构，实现了语音识别性能的提升。

Abstract

convolutional neural networks (CNNs) are a standard component of many current state-of-the-art Large Vocabulary Continuous Speech Recognition (lvcsr) systems. However, CNNs in →

convolutional neural networks lvcsr architectural advances multilingual cnns multi-scale input features

发现论文，激发创造

深度卷积神经网络在 LVCSR 中的改进

本文通过比较不同的权重共享、池化策略和加入说话人自适应、dropout 等措施，改进了深度卷积神经网络（CNN）性能，在广播新闻任务中实现了 WER 2-5% 的相对提升。

Sep, 2013

LVCSR 的非常深卷积神经网络的进展

本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型，提出了一种新的 CNN 设计，通过批量归一化来恢复去除时间池化带来的性能损失，确保模型快速、高效地解决长切分音频识别。

Apr, 2016

用于鲁棒性语音识别的非常深的卷积神经网络

本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略，并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中，该算法的词错误率达到了 7.09％。

Oct, 2016

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

用于文本分类的深层卷积神经网络

本文介绍了一种新的基于 VDCNN 的文本处理体系结构，通过使用 29 个卷积层，仅使用小型卷积和池化操作，该模型的性能得到了提高，并且在多个公共文本分类任务上，相对于现有模型，且在文本处理中使用非常深的卷积神经网络实现了最先进水平。

Jun, 2016

ContextNet：利用全局上下文提升卷积神经网络在自动语音识别中的表现

本文报道了一种新的 CNN-RNN-transducer 结构 ContextNet，它包括一个全卷积编码器，通过添加 squeeze-and-excitation 模块将全局上下文信息嵌入到卷积层中，以及一个简单的缩放方法，实现了计算和准确度之间的良好折衷，这种模型在多个基准测试集上显著优于其他模型。

May, 2020

用于自动语音识别的残差卷积 CTC 网络

本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC，其通过残差连接和时间分类损失函数，能够同时利用语音信号的时间和光谱结构，并提出了一种 CTC-based 系统组合方法，可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。

Feb, 2017

卷积层过滤器数量对语音识别模型准确度的影响

通过研究卷积层的滤波器数目对 CNN+RNN 语音识别模型的预测准确率的影响，提出声音到向量嵌入 (CNN 嵌入) 的假设，并通过参数优化开发出一个轻型的 End-to-End 语音识别系统。该系统在仅有声学模型且无中间语音表示和语言模型的辅助下，仅含 4.4 百万权值参数就能够实现达到 90.2% 的字准确率，并且模型计算效率较高，也适用于移动设备或自动驾驶等场景。

Feb, 2021

Big-Little Net：一种高效的多尺度特征表示方法，用于视觉和语音识别

该论文提出了一种新的卷积神经网络 (CNN) 架构，通过使用具有不同计算复杂度的多分支网络，在不同的尺度上频繁合并特征，以使用更少的计算实现多尺度特征，并在目标识别和语音识别任务上显著提高了模型效率和性能。

Jul, 2018

原始波形的深度卷积神经网络

本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法，通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形，并在环境声音识别任务中取得了 15% 的性能提升，达到了使用对数 - 梅尔特征的模型的性能。

Oct, 2016