本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
该研究分析了一个基于注意力机制的序列到序列语音识别系统,提出了解决其预测过于自信和产生不完整转录的问题的实用解决方案,并在没有语言模型的情况下,其词错误率为 10.6%,与 trigram 语言模型一起达到了 6.7%的词错误率。
Dec, 2016
本文对 Conv-TasNet 进行了实证研究,并提出了基于非线性变体的编码器 / 解码器改进方法,实验表明这种改进可以将平均 SI-SNR 性能提高 1 dB 以上。此外,我们还探讨了 Conv-TasNet 的泛化能力和改进编码器 / 解码器的潜在价值。
Feb, 2020
本研究设计了一种基于时深可分卷积与连接时序分类的在线端到端语音识别系统,通过优化核心架构,高效的波束搜索解码器以及提升性能指标的分析,系统吞吐量提高 3 倍,延迟降低同时保持更好的词语误差率。
Jan, 2020
我们提出一种递归编码器 - 解码器深度神经网络架构,直接将一种语言中的语音转换为另一种语言中的文本,通过多任务训练序列到序列的语音翻译和识别模型通过共享编码器网络来提高性能。
Mar, 2017
本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型,提出了一种新的 CNN 设计,通过批量归一化来恢复去除时间池化带来的性能损失,确保模型快速、高效地解决长切分音频识别。
Apr, 2016
本研究探讨如何将深度可分离卷积应用于神经机器翻译任务。我们提出了一种新的基于 Xception 和 ByteNet 的架构 SliceNet,并发现深度可分离卷积能够在减少参数数量和计算量的同时获得与 ByteNet 相似的性能,同时展示了深度可分离卷积对于神经机器翻译任务的性能表现以及其带来的架构变化。
Jun, 2017
研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用,通过预置一个高时间缩小系数并在训练过程中逐步降低,以及使用辅助 CTC 损失函数等方法,证明了它的有效性和高性能。同时,还对基于子词单元的 LSTM 语言模型进行了训练,在无语言模型情况下,在给定的评估数据子集上相较于注意力基线的 WER 提高了 27%。
May, 2018
利用卷积神经网络架构完全替代了循环神经网络的流行序列到序列学习方法,运用门控线性单元简化了梯度传播,为每个解码器层装备了单独的注意力模块,在 GPU 和 CPU 上取得了比 Wu 等人(2016)更高的准确性和十倍以上的速度。
May, 2017
本文提出了一种基于卷积神经网络的语音识别方法,相对于传统的基于循环神经网络的模型使用更少的特征提取步骤,并在多项测试中取得了当下最佳的表现。
Dec, 2018