联合语音识别和翻译的流式模型

Jan, 2021

Streaming Models for Joint Speech Recognition and Translation

Orion Weller, Matthias Sperber, Christian Gollan, Joris Kluivers

TL;DR本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Abstract

Using end-to-end models for speech translation (ST) has increasingly been the focus of the ST community. These models condense the previously cascaded systems by directly converting sound waves into translated te

发现论文，激发创造

语音翻译与端到端的承诺：回顾我们的现状

本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程，讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名，以解决语音识别和数据缺失问题等开放性研究问题。

Apr, 2020

手机功能提升语言翻译

本研究比较了级联和端到端模型在不同资源条件下的性能，并在ST模型中引入电话特征以提高它们的表现，从而缩小了端到端模型与级联模型之间的差距。

May, 2020

语音的一致转录和翻译

本研究探索了一种同时实现语音转写和翻译的方法，并比较了传统串联式方法和端到端模型的表现。研究发现，直接模型不适用于这一任务，但采用耦合推理过程的端到端模型能够实现强一致性。此外，研究还引入了直接优化一致性的简单技术，并分析了一致性、转写准确性和翻译准确性之间的权衡。

Jul, 2020

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆Transformer编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码Transformer模型，具有更好的延迟和质量平衡。

Oct, 2020

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的Transformer transducer（TT）模型以及在多语言ST中的应用，结果表明TT模型不仅显著减少了推理时间，而且在英德翻译上优于基于ASR和MT的非流式级联ST。

Apr, 2022

联合训练是否真的有助于级联语音翻译？

本文讨论语音翻译中级联系统带来的挑战以及应对这些挑战的方法，研究表明，直接利用数据进行联合训练无法显著提高级联系统的性能，建议寻找其他有效的方法来提高语音翻译的效率。

Oct, 2022

一种弱监督的流式多语言语音模型，具有真正的零-shot能力

本文介绍了建立流式多语言语音模型 (SM2) 的工作，基于 Transformer Transducer，使用弱监督数据通过机器翻译服务训练模型，拥有较强的流式能力和真正的零-shot 能力，并取得了非常好的翻译质量。

Nov, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成，其平均ASR延迟为1秒，ST延迟为1.3秒，在多语言情况下优化了输出质量表现。

Jul, 2023

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式Transformer-Transducer(T-T)模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在{it, es, de}->en上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023

将语音编码器与下游文本模型相结合

本研究提出了一种模块化的方法，用于构建级联语音翻译模型，确保所得到的模型在性能上不低于最佳级联基线，同时保持语音识别和文本翻译的最先进表现。论文的创新在于引入了“导出”层，通过L2损失训练，确保语音识别嵌入与文本翻译标记嵌入之间的良好匹配，从而实现性能提升，尤其在无法增量训练文本模型的情况下。

Jul, 2024