卷积注意力序列到序列神经网络用于端到端自动语音识别
本文提出了基于双向循环神经网络编码器和递归神经网络解码器的语音识别方法,使用关注机制对输入与输出序列对齐以较高准确性地识别音素,且在 TIMIT 数据集上与传统的 HMM 方法相当。
Dec, 2014
本研究采用 Transformer 结构,构建端到端的序列到序列模型,其表现超过了之前的端到端模型和传统混合系统,并且在 Switchboard 基准测试中超出了所有之前的端到端 ASR 方法。
Apr, 2019
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
本研究提出一种基于注意力机制和上下文保留机制的序列到序列学习(Seq2Seq)方法,用于语音转换(VC)任务。该方法稳定加速了训练过程,并且不需要预先对源和目标语音数据进行时间对齐。在实验中,与高斯混合模型(GMM)和循环神经网络(RNN)相比,我们提出的 VC 框架仅需一天时间训练,可以达到接近于 RNN 提供的语音合成质量的水平。
Nov, 2018
本研究提出了一个最先进的端到端自动语音识别模型,通过使用联合 CTC 和基于注意力机制的编码解码器网络来学习听和写字,其中编码器是基于 VGG 网络的深度 CNN,CTC 网络和注意力解码器共同训练,通过在波束搜索过程中,将 CTC 预测、注意力解码器预测和单独训练的 LSTM 语言模型相结合,相较于先前的系统,在自发性日语和中文语音上减少了 5-10% 的误差,并且我们的端到端模型击败了传统的混合式 ASR 系统。
Jun, 2017
本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒,并且使用限制注意力单调性和分段解码算法等两种改进方法,将注意力模型的性能极大提升,达到了和 RNN-T 模型相当的水平。
Nov, 2019
该研究提出了一种基于注意力机制的序列到序列模型用于手写体识别,其中结合了卷积神经网络进行视觉信息的提取,实验结果表明其相比于最近的序列到序列方法取得了显著提升。
Mar, 2019
通过使用基于自注意力机制的 Transformer 模型,比较了基于音节和音素的汉语语音识别模型,结果表明音节模型在 HKUST 语料库上表现优异。
Apr, 2018
这篇论文介绍了使用基于注意力机制的编码器 - 解码器模型及特征迁移学习来建立一个自动语音识别的端对端模型,通过处理原始语音信号并不需要设计预定义的对齐和手动建立的模型来直接与文本转录进行交互
Sep, 2017