Jasper: 一种端到端卷积神经声学模型

Apr, 2019

Jasper: 一种端到端卷积神经声学模型

Jasper: An End-to-End Convolutional Neural Acoustic Model

Jason Li, Vitaly Lavrukhin, Boris Ginsburg, Ryan Leary, Oleksii Kuchaiev...

TL;DR本文提出一种仅使用 1D 卷积、批量归一化、ReLU、dropout 和残差连接的端到端语音识别模型 Jasper，结合新的层次优化器 NovoGrad，实现更好的训练和更高的准确率，最先进的 Jasper 变体使用 54 个卷积层，基于 LibriSpeech test-clean 数据集使用束搜索解码器和外部神经语言模型实现 2.95% WER 和贪心解码器实现 3.86% WER，并在 Wall Street Journal 和 Hub5'00 交际评估数据集上获得了有竞争力的结果。

Abstract

In this paper, we report state-of-the-art results on librispeech among end-to-end speech recognition models without any external training data. Our model, Jasper, uses only →

end-to-end speech recognition 1d convolutions novograd deep architecture librispeech

发现论文，激发创造

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

用于鲁棒性语音识别的非常深的卷积神经网络

本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略，并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中，该算法的词错误率达到了 7.09％。

Oct, 2016

Wav2Letter: 一种基于端到端的卷积神经网络语音识别系统

本论文提出一种简单的端对端语音识别模型，用卷积神经网络基于声学模型和图解码相结合，通过输出字母实现语音转录，无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练，不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率，并在原始波形上得到有希望的结果。

Sep, 2016

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

时域深度可分卷积的序列对序列语音识别

使用时间 - 深度可分离卷积块、卷积语言模型以及有效的 beam 搜索方法，相对于先前的序列到序列结果，在 LibriSpeech 测试集中语音识别效果提高了 22%。

Apr, 2019

AmberNet: 一种紧凑的端到端口语识别模型

AmberNet 是一种用于口语识别的紧凑端到端神经网络，由一维深度可分离卷积和全局上下文的 Squeeze-and-Excitation 层、统计汇聚和线性层组成，大小是现有技术 (SOTA) 模型的 1/10，准确率达到 FLEURS 基准的 SOTA，可用于新语言和音频条件的简单微调。它在输入长度敏感性方面的表现良好。

Oct, 2022

分析端到端自动语音识别系统中的隐藏表示

本文分析了基于卷积和循环层、使用连结时序分类（CTC）损失函数训练的深度端到端模型所学习的语音表示，并评估模型不同层次的表示在预测电话标签方面的质量，以此为基础探讨了端到端模型的重要方面和设计选择。

Sep, 2017

密集连接卷积网络用于语音识别

本文介绍了我们在使用 DenseNets 进行声学建模（AM）自动语音识别方面的最新研究，实验结果表明，DenseNet 能够显著地优于其他神经网络模型，如 DNNs、CNNs、VGGs, 甚至在使用只有一半训练数据的情况下表现也很好。

Aug, 2018

VoxCeleb2：深度语音说话人识别

本文介绍了一个大规模的音频 - 视觉说话人识别数据集，用于使用卷积神经网络模型和训练策略在各种条件下有效识别声音中的身份，并展示出比以前的成果更高的性能表现。

Jun, 2018