Wav2Letter: 一种基于端到端的卷积神经网络语音识别系统

Sep, 2016

Wav2Letter: 一种基于端到端的卷积神经网络语音识别系统

Wav2Letter: an End-to-End ConvNet-based Speech Recognition System

Ronan Collobert, Christian Puhrsch, Gabriel Synnaeve

TL;DR本论文提出一种简单的端对端语音识别模型，用卷积神经网络基于声学模型和图解码相结合，通过输出字母实现语音转录，无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练，不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率，并在原始波形上得到有希望的结果。

Abstract

This paper presents a simple end-to-end model for speech recognition, combining a convolutional network based acoustic model and a graph decoding

speech recognition convolutional network graph decoding automatic segmentation criterion word error rate

发现论文，激发创造

具有门控卷积神经网络的基于字母的语音识别

本研究提出了一种基于 ConvNet 和 CTC（或 ASG）的字母语音模型，实现了与 WSJ 中最佳字母系统的匹配，并在 LibriSpeech 上展现了近乎最先进的表现。

Dec, 2017

全卷积语音识别

本文提出了一种基于卷积神经网络的语音识别方法，相对于传统的基于循环神经网络的模型使用更少的特征提取步骤，并在多项测试中取得了当下最佳的表现。

Dec, 2018

wav2letter++: 最快的开源语音识别系统

本文介绍了使用 C++ 编写的最快开源深度学习语音识别框架 wav2letter++，使用 ArrayFire 张量库实现最大效率的系统架构和设计，并与其他主要的开源语音识别系统进行比较。结果显示，在某些情况下，wav2letter++ 比其他优化的框架训练端到端神经网络的速度快 2 倍以上，并且该框架的训练时间在使用 100 百万参数的模型时，可线性扩展至 64 个 GPU，快速迭代是成功研究和模型调优的关键因素。

Dec, 2018

使用字母到单词编码器进行单词级语音识别

通过字级别的单词网络，我们提出了一种直接生成单词嵌入的序列模型，这种直接生成单词的方法可以有效提高语音识别中的词义判断准确率，并且可以更高效地进行训练和推理。

Jun, 2019

Vid2speech：从无声视频中重建语音

该研究利用卷积神经网络提出了一种端到端的模型，可以从无声视频帧生成可听的语音信号，实现了较高的单词清晰度，并展示了学习未识别单词的良好效果。

Jan, 2017

基于注意力机制的 Wav2Text 及特征迁移学习

这篇论文介绍了使用基于注意力机制的编码器 - 解码器模型及特征迁移学习来建立一个自动语音识别的端对端模型，通过处理原始语音信号并不需要设计预定义的对齐和手动建立的模型来直接与文本转录进行交互

Sep, 2017

神经声学到词模型的模块化训练对于大词汇连续语音识别的应用

此研究提出了一种新颖的模块化培训框架，用于分别训练神经声学和语言模型，并在解码阶段仍执行端到端推理。