LAMASSU：使用神经传导器进行流媒体跨语言语音识别和翻译

Nov, 2022

LAMASSU：使用神经传导器进行流媒体跨语言语音识别和翻译

LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and Translation Using Neural Transducers

Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou...

TL;DR本文提出了一种使用神经转导器的流式语言无关的多语言语音识别和翻译模型，采用语言无关的多语言编码器显著提高了模型效果，并探究统一预测和联合网络的优缺点，通过给编码器输入目标 LID 和连接时序分类正则化的训练，不仅显著降低了模型大小，还取得了优于单语音识别和双语言翻译模型的结果。

Abstract

End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual →

speech recognition speech translation neural transducers multilingual encoding connectionist temporal classification

发现论文，激发创造

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

利用语音识别能力激发大型语言模型

通过直接添加小型音频编码器，扩展大型语言模型的能力，实现与其文本版本相同的自动语音识别系统，并在 Multilingual LibriSpeech 上的实验证明，即使在 LLM 被冻结或者音频编码器使用几乎 1 秒的步幅生成更少嵌入时，多语种 ASR 仍然可行，从而为 LLMs 在长篇音频中进行操作开辟了可能性。

Jul, 2023

基于标签同步的神经转录器的端到端同时语音翻译

LS-Transducer-SST 是一种用于实时语音转写和同时语音翻译的标签同步神经转导器，通过集成 - 发射机制实现了灵活决策翻译标记的时机，并且能在解码和训练时控制延迟与质量之间的权衡。实验结果表明，LS-Transducer-SST 在质量 - 延迟权衡方面优于现有的流行方法。

Jun, 2024

多语言端到端语音翻译

本文提出了一种简单且有效的多语言端到端语音翻译框架，并证明了其在自动语音识别、机器翻译、一对多翻译以及多对多翻译中的有效性以及相对于双语端到端语音翻译的优势。

Oct, 2019

利用语义解码器的多任务 RNN-T 进行流式口语理解

本文提出了一种可流式传输的多任务语义转换器模型，通过自回归的方式预测 ASR 和 NLU 标签，并使用语义解码器聚合以前预测的字块和槽标签，从而优化了 E2E SLU 模型，且在 ASR 和 NLU 指标上表现优于传统的两阶段 E2E SLU 模型。

Apr, 2022

一种语言不可知的多语言流式本地化 ASR 系统

本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Aug, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

通过语音翻译辅助的端到端口语理解

利用跨语言语音翻译 (ST) 作为预训练任务可提高单语和多语意图分类，口语问答的性能，并探索模型的贝叶斯迁移学习和持续学习惯性。

May, 2023

多语言和全非自回归 ASR 与大型语言模型融合：一项全面研究

在大模型时代，解码的自回归特性通常导致延迟成为一个重要瓶颈。我们提出了一个非自回归 LM 融合 ASR 系统，有效地利用了加速器硬件的并行化能力。我们的方法是将 USM 和 PaLM 2 语言模型以每个片段评分模式结合起来，在 FLEURS 和 YouTube 字幕上实现了相对 WER 的平均改进 10.8％和 3.6％。此外，我们的综合消融研究分析了关键参数，如 LLM 大小、上下文长度、词汇大小、融合方法等。例如，我们探讨了 LLM 大小从 128M 到 340B 参数对 ASR 性能的影响。该研究为实际大规模 LM 融合语音识别系统的有效性提供了有价值的见解。

Jan, 2024