利用时间戳信息进行序列化联合流式识别和翻译

Oct, 2023

利用时间戳信息进行序列化联合流式识别和翻译

Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation

Sara Papi, Peidong Wang, Junkun Chen, Jian Xue, Naoyuki Kanda...

TL;DR提出了一种流式Transformer-Transducer(T-T)模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在{it, es, de}->en上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Abstract

The growing need for instant spoken language transcription and translation is driven by increased global communication and cross-lingual interactions. This has made offering translations in multiple languages essential for user applications. Traditional approaches to automatic speech recognit

发现论文，激发创造

使用增强记忆变换器的流播同声传译

本文提出了一种针对实时应用场景的端到端增强记忆Transformer编码器，成功地应用于流式同声传译任务，可以处理大量连续输入，相较于单向掩码Transformer模型，具有更好的延迟和质量平衡。

Oct, 2020

双解码器变压器模型实现联合自动语音识别与多语言语音翻译

本文介绍了双解码器Transformer的新模型架构，该模型同时执行自动语音识别和多语言语音翻译。我们的模型基于原始Transformer体系结构，但由两个解码器组成，每个解码器负责一个任务（ASR或ST），并通过双关注机制相互交互。我们提出了两种不同的体系结构变体，分别对应于解码器之间的两个不同层次的依赖关系，称为并行双解码器Transformer和交叉双解码器Transformer。我们在MuST-C数据集上进行了大量实验，结果显示我们的模型在多语言设置中优于以前报道的最高翻译性能，并且也优于双语一对一结果。此外，我们的并行模型相对于香草多任务体系结构在ASR和ST之间没有权衡。

Nov, 2020

联合语音识别和翻译的流式模型

本文介绍了如何使用端到端模型进行语音翻译，并在流式翻译设置中实现同时生成音频转录和翻译输出，并比较了与标准级联方法的表现，结果表明这种方法与级联模型的表现相似，但参数数量更少。

Jan, 2021

利用同步的流式ASR辅助的直接同声传译

本文提出一种新型的语音翻译范例, 通过使用两个分离但同步的解码器, 一个用于流式ASR, 一个用于直接语音翻译, 并通过ASR生成的中间结果指导直接语音翻译, 实现了流畅度更高的翻译质量。

Jun, 2021

使用令牌级串行化输出训练的流式多说话人ASR

本文提出了一种基于token级别序列化输出训练（t-SOT）的新型流式多说话人自动语音识别框架，该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。

Feb, 2022

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的Transformer transducer（TT）模型以及在多语言ST中的应用，结果表明TT模型不仅显著减少了推理时间，而且在英德翻译上优于基于ASR和MT的非流式级联ST。

Apr, 2022

面向口语理解和同时语音翻译的分块流式Transformer

本研究提出基于块状，流式 Transformer 的方法，通过流式处理和块状并行检索，在同时进行自然语言理解和语音翻译等多个语音处理任务中，实现实时处理并取得与离线模型相当甚至更高的性能表现，并通过引入自动语音识别中间层损失约束和跨语言编码方法等方式进一步提高分类性能和模型表现。

Apr, 2022

一种弱监督的流式多语言语音模型，具有真正的零-shot能力

本文介绍了建立流式多语言语音模型 (SM2) 的工作，基于 Transformer Transducer，使用弱监督数据通过机器翻译服务训练模型，拥有较强的流式能力和真正的零-shot 能力，并取得了非常好的翻译质量。

Nov, 2022

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成，其平均ASR延迟为1秒，ST延迟为1.3秒，在多语言情况下优化了输出质量表现。

Jul, 2023

通过知识蒸馏与Whisper快速流式变换器自动语音识别原型开发

本研究解决了在缺乏监督数据条件下训练自动语音识别（ASR）模型的难题。我们提出了一种新方法，利用伪标记语音有效地从头开始训练流式变换器-转导器（TT）模型，结果表明这种方法能够在各种语言上获得强大的ASR性能，且不需要大量的数据和计算资源。

Sep, 2024