关键词end-to-end speech recognition
搜索结果 - 31
- 序列建模:基于插补和动态规划的模型
本文提出 Imputer,一种神经序列模型,通过插值迭代地生成输出序列。Imputer 是一种迭代生成模型,只需要恒定数量的生成步骤,与输入或输出标记的数量无关。Imputer 可以被训练成近似边际化输入和输出序列之间所有可能的对齐和所有可 - 利用低秩变换器实现轻量高效端到端语音识别
本研究提出低秩变压器(LRT)神经网络架构,以实现减少网络参数和提高训练推理速度的目标,进而在端对端语音识别任务上实现更好的泛化性能和更低的错误率。
- 端到端语音识别的自训练
本文探讨了自我训练在端到端语音识别中的应用,并展示给出了使用伪标签训练深度学习模型的方法,经过实验证明了该方法可以大幅提高基准模型的准确率,通过使用语音和语言模型生成伪标签和一些序列到序列模型的过滤机制,并采用新颖的集成方法提高伪标签的多样 - Jasper: 一种端到端卷积神经声学模型
本文提出一种仅使用 1D 卷积、批量归一化、ReLU、dropout 和残差连接的端到端语音识别模型 Jasper,结合新的层次优化器 NovoGrad,实现更好的训练和更高的准确率,最先进的 Jasper 变体使用 54 个卷积层,基于 - 序列学习的最优完成蒸馏
Optimal Completion Distillation 使用动态规划算法为序列模型优化训练,通过最小化编辑距离提高了其末端语音识别的表现。
- 针对语音识别的端到端注意力模型的改进训练
研究了基于子词单元的序列到序列的注意力机制模型在简单开放式语料库上进行的端到端语音识别中的应用,通过预置一个高时间缩小系数并在训练过程中逐步降低,以及使用辅助 CTC 损失函数等方法,证明了它的有效性和高性能。同时,还对基于子词单元的 LS - 使用 RNN-Transducer 探索流式端到端语音识别的架构、数据和单位
本研究使用循环神经网络传输器(RNN-T)来训练端到端语音识别模型,并探索了不同的模型架构。通过使用字元素(wordpieces),模型的性能进一步得到了提高,最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。
- 使用策略学习来提高端到端的语音识别
本文介绍了如何在最大似然和策略梯度训练中联合训练来减少最大似然和语音识别性能指标之间的不匹配,并通过实验验证了其效果。
- 探索神经传递器用于端到端语音识别
通过实证比较,证明 Seq2Seq 和 RNN-Transducer 模型在不使用语言模型的情况下都优于最佳的 CTC 模型,使得语音识别流程可以纯粹地表述为神经网络操作。我们还研究了编码器架构选择对三个模型性能的影响。
- 非常深的卷积网络用于端到端语音识别
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典 - 多任务学习下的联合 CTC-Attention 基于端到端语音识别
本研究介绍了一种新的方法,使用多任务学习框架中的联合 CTC-attention 模型来改善端到端语音识别的鲁棒性并实现快速收敛,从而减轻对齐问题。实验证明,与 CTC 和 attention-based encoder-decoder 基