卷积注意力序列到序列神经网络用于端到端自动语音识别

Oct, 2017

卷积注意力序列到序列神经网络用于端到端自动语音识别

Convolutional Attention-based Seq2Seq Neural Network for End-to-End ASR

Dan Lim

TL;DR该论文介绍了一个带有 Luong 注意力机制的序列到序列模型，描述了各种神经网络算法，证明了在 TIMIT 数据集上实现了 15.8% 的音素误差率的有效性。

Abstract

This thesis introduces the sequence to sequence model with Luong's attention mechanism for end-to-end ASR. It also describes various neural network algorithms including Batch normalization, Dropout and Residual network which constitute the →

sequence to sequence model luong's attention mechanism neural network algorithms convolutional attention-based seq2seq neural network speech recognition

发现论文，激发创造

基于 Attention 循环神经网络的端到端连续语音识别：首次结果

本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法，使用关注机制对输入与输出序列对齐以较高准确性地识别音素，且在 TIMIT 数据集上与传统的 HMM 方法相当。

Dec, 2014

非常深的自注意力网络用于端到端语音识别

本研究采用 Transformer 结构，构建端到端的序列到序列模型，其表现超过了之前的端到端模型和传统混合系统，并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。

Apr, 2019

基于注意力机制的语音识别模型

本研究提出了一种基于改进的注意力机制加上位置感知的模型，解决了长输入音频识别中的问题并且有效降低了音素错误率。

Jun, 2015

非常深的卷积网络用于端到端语音识别

本研究证明采用深度卷积网络，采用 Inception 及 ResNet 结构，结合批标准化技术、残差连接和卷积 LSTM 单元，可以提高端到端语音识别（ASR）性能，并在 WSJ ASR 任务中实现了 10.5％的单词错误率，未使用任何词典或语言。

Oct, 2016

AttS2S-VC：具有注意力机制和上下文保留机制的序列到序列语音转换

本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习（Seq2Seq）方法，用于语音转换（VC）任务。该方法稳定加速了训练过程，并且不需要预先对源和目标语音数据进行时间对齐。在实验中，与高斯混合模型（GMM）和循环神经网络（RNN）相比，我们提出的 VC 框架仅需一天时间训练，可以达到接近于 RNN 提供的语音合成质量的水平。

Nov, 2018

基于联合 CTC-Attention 的端到端语音识别的进展，带有深度 CNN 编码器和 RNN-LM

本研究提出了一个最先进的端到端自动语音识别模型，通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字，其中编码器是基于 VGG 网络的深度 CNN，CTC 网络和注意力解码器共同训练，通过在波束搜索过程中，将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合，相较于先前的系统，在自发性日语和中文语音上减少了 5-10% 的误差，并且我们的端到端模型击败了传统的混合式 ASR 系统。

Jun, 2017

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

评估序列到序列模型在手写文本识别中的应用

该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别，其中结合了卷积神经网络进行视觉信息的提取，实验结果表明其相比于最近的序列到序列方法取得了显著提升。

Mar, 2019

基于音节的 Transformer 序列到序列中文语音识别

通过使用基于自注意力机制的 Transformer 模型，比较了基于音节和音素的汉语语音识别模型，结果表明音节模型在 HKUST 语料库上表现优异。

Apr, 2018

基于注意力机制的 Wav2Text 及特征迁移学习

这篇论文介绍了使用基于注意力机制的编码器 - 解码器模型及特征迁移学习来建立一个自动语音识别的端对端模型，通过处理原始语音信号并不需要设计预定义的对齐和手动建立的模型来直接与文本转录进行交互

Sep, 2017