使用 EMFORMER 的 CTC 流式自动语音识别的动态延迟
本文提出了一种针对实时应用场景的端到端增强记忆 Transformer 编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码 Transformer 模型,具有更好的延迟和质量平衡。
Oct, 2020
本文提出了一种基于 Transformer 模型的低延迟流式语音识别方法,其中包含了一个侦察网络和一个识别网络,该方法在 Librispeech 的测试数据集上实现了最佳性能 (2.7/6.4 WER) 和短暂的 639ms 延迟。
Mar, 2020
本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明,Emformer 在低延迟语音助手任务中有 24%至 26%的相对单词错误率降低,并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。
Oct, 2020
通过使用自我注意力来模拟时间上下文信息,基于编码器 - 解码器的序列到序列模型已经在端到端自动语音识别领域取得了最先进的成果。本研究提出了一种基于 Transformer 的流式 ASR 系统,其可以在每个发音单词之后快速生成输出,因此可以应用于更广泛的 ASR 场景中。我们采用了一种时间限制的自注意力机制来实现流式语音序列的建模,同时通过触发式关注机制来优化编码器 - 解码器的关注机制。在 LibriSpeech 的测试数据上,我们的方案分别达到了 2.8% 和 7.2% 的词错误率,这是我们所知道的这个任务的最好的流式端到端 ASR 成果。
Jan, 2020
本文针对编码器 - 解码器模型在语音翻译等序列任务中的精度和延迟问题,提出了三种延迟降低技术,包括使用单向注意力机制,实验证明该方法可以降低 83% 的延迟并牺牲 1% 的 WER(相对于离线转换)。同时还探讨了其在低延迟语音翻译上的应用。
May, 2020
本研究设计了 Conv-Transformer Transducer 架构,在 LibriSpeech 数据集上实现了较强的流式语音识别性能,该架构适用于流式 ASR,且相较于以前发布的 Transformer Transducer 和强混合流式 ASR 系统,拥有更小的前向窗口、更少的参数和更低的帧率。
Aug, 2020
本文提出了一种采用隐式内存推理机制的新型左上下文方法的隐式存储变形器,以提高流式翻译的速度和性能,并在 MuST-C 数据集上进行实验以证明该方法优于现有方法。
Jul, 2023
本文提出了一种新的训练方法,通过明确建模和减少序列变换器模型的延迟来达到最优的延迟和准确性均衡,实验结果表明,所提出的最小延迟训练方法将有助于将哈尔滨工业大学卡苏耶延迟从 220ms 降低到 27ms,并在误识率降低了 0.7% 的同时,优于传统的对齐限制训练和快速发射方法。
Nov, 2022
该研究提出了一种使用感知器编码器和动态潜在访问训练的语音到文本转换技术,这种技术在 MuST-C 数据集上的三种语言中可以与 Transformer 基线模型的性能相匹配,并且可以在推理过程中灵活部署,适应多种计算预算,而不会导致显著降低翻译质量。
Oct, 2022
本文提出了一种新颖的增强记忆自注意力机制,用于 Transformer 语音识别中的流式应用,相对于现有的可流式 Transformer 方法,减小了计算量并在 Librispeech 基准测试中实现了超过 15% 的相对误差降低。
May, 2020