LAMASSU:使用神经传导器进行流媒体跨语言语音识别和翻译
本文介绍了如何将神经转录器引入流式端到端语音翻译(ST)中,提出了基于注意力池化的 Transformer transducer(TT)模型以及在多语言 ST 中的应用,结果表明 TT 模型不仅显著减少了推理时间,而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。
Apr, 2022
提出了一种流式 Transformer-Transducer (T-T) 模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性,首次实现了使用单个解码器生成一对多联合输出。
Oct, 2023
通过直接添加小型音频编码器,扩展大型语言模型的能力,实现与其文本版本相同的自动语音识别系统,并在 Multilingual LibriSpeech 上的实验证明,即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时,多语种 ASR 仍然可行,从而为 LLMs 在长篇音频中进行操作开辟了可能性。
Jul, 2023
LS-Transducer-SST 是一种用于实时语音转写和同时语音翻译的标签同步神经转导器,通过集成 - 发射机制实现了灵活决策翻译标记的时机,并且能在解码和训练时控制延迟与质量之间的权衡。实验结果表明,LS-Transducer-SST 在质量 - 延迟权衡方面优于现有的流行方法。
Jun, 2024
本文提出了一种可流式传输的多任务语义转换器模型,通过自回归的方式预测 ASR 和 NLU 标签,并使用语义解码器聚合以前预测的字块和槽标签,从而优化了 E2E SLU 模型,且在 ASR 和 NLU 指标上表现优于传统的两阶段 E2E SLU 模型。
Apr, 2022
本文提出了一种支持流式多语言的端到端自动语音识别的模型,通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer,以及使用了更高效的 Embedding 解码器,实现了低延迟和高质量的效果,可以在移动设备上实时运行。
Aug, 2022
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
在大模型时代,解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统,有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来,在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8%和 3.6%。此外,我们的综合消融研究分析了关键参数,如 LLM 大小、上下文长度、词汇大小、融合方法等。例如,我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。
Jan, 2024