深度言语：扩大端到端语音识别

Dec, 2014

Deep Speech: Scaling up end-to-end speech recognition

Awni Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos...

TL;DR使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Abstract

We present a state-of-the-art speech recognition system developed using end-to-end deep learning. Our architecture is significantly simpler than traditional speech systems, which rely on laboriously engineered pr

end-to-end deep learning speech recognition system data synthesis techniques rnn training system noisy environments

发现论文，激发创造

Deep Speech 2: 英语和普通话端到端语音识别

本文介绍了一种利用端到端深度学习的方法来识别英语或普通话的说话人。采用神经网络代替人工处理的模块可以更好地处理各种各样的语音，包括嘈杂的环境、口音和不同的语言，并通过 HPC 技术加速算法，从而提供了更快捷的实验迭代方式，并通过数据中心的 GPU 技术，能够成本低廉地在线发布系统。在标准数据集上的实验结果表明，我们的系统在多个任务上与人类工作人员的转录性能相当。

Dec, 2015

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

SpeechNet：工业级弱监督端到端语音识别

本文提出了一种在标注稀缺，计算有限的情境下训练和部署自动语音识别系统的方法，使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源，采用不同输入长度的 CUDA 图形池来加速推理，称为 SpeechNet 系统，在智能电视上实现了 Wav2vec 技术的大规模部署，获得了 8% 的词错误率相对改进和 600% 的加速。

Nov, 2022

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

优化边缘语音识别

本文研究边缘设备上的语音识别问题，通过使用端到端的神经结构，并应用更有效的神经网络拓扑和优化技术，成功构建了一个高精度的，在边缘设备上运行的小型语音识别系统。

Sep, 2019

深度之声：实时神经文本转语音

Deep Voice 是一个使用深度神经网络构建的优秀的文本到语音系统，由五个主要组成部分构成，包括用于定位语音边界的分段模型、字素到音素转换模型、音素持续时间预测模型、基频预测模型和音频合成模型。通过使用神经网络进行每个组件的构建，既简单又灵活。此外，我们通过优化后的 WaveNet 推断内核，实现了 400 倍的实时速度。

Feb, 2017

使用卷积神经网络扩展在线语音识别能力

本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统，通过优化核心架构，高效的波束搜索解码器以及提升性能指标的分析，系统吞吐量提高 3 倍，延迟降低同时保持更好的词语误差率。

Jan, 2020

端到端语音识别综述

该研究论文介绍了端到端自动语音识别模型的分类和改进，讨论了它们对传统隐马尔科夫模型的影响，涵盖了模型、训练、解码和外部语言模型集成等各个方面，同时讨论了性能和部署机会以及未来的发展前景。

Mar, 2023

多通道端到端语音识别

本研究论文扩展了端到端的框架，以包含麦克风阵列信号处理以进行噪声抑制和语音增强，并能够共同优化束形成和识别架构。实验结果表明，我们的多通道端到端系统在去噪和语音增强任务上表现更好。

Mar, 2017

深度语音 3：使用卷积序列学习扩展语音合成

Deep Voice 3 是一种全卷积自注意神经文本转语音系统，可以很好地匹配目前最先进的神经语音合成系统的自然度，同时训练速度快于十倍。通过在超过 2000 位演讲者的超过 800 小时的音频数据上进行训练，实现了 TTS 数据集规模的前所未有的扩展。同时，我们描述了如何缩放指向注意的语音合成网络的推断，以在单个 GPU 服务器上每天缩放到 1000 万个查询，并比较了几种不同的波形综合方法。

Oct, 2017