基于标签同步的神经转录器的端到端同时语音翻译

ACLJun, 2024

基于标签同步的神经转录器的端到端同时语音翻译

Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation

Keqi Deng, Philip C. Woodland

TL;DRLS-Transducer-SST 是一种用于实时语音转写和同时语音翻译的标签同步神经转导器，通过集成 - 发射机制实现了灵活决策翻译标记的时机，并且能在解码和训练时控制延迟与质量之间的权衡。实验结果表明，LS-Transducer-SST 在质量 - 延迟权衡方面优于现有的流行方法。

Abstract

While the neural transducer is popular for online speech recognition, simultaneous speech translation (SST) requires both streaming and re-ordering capabilities. This paper presents the →

neural transducer simultaneous speech translation ls-transducer-sst label-synchronous trade-off

发现论文，激发创造

大规模流式端到端语音翻译基于神经转录器

本文介绍了如何将神经转录器引入流式端到端语音翻译（ST）中，提出了基于注意力池化的 Transformer transducer（TT）模型以及在多语言 ST 中的应用，结果表明 TT 模型不仅显著减少了推理时间，而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。

Apr, 2022

长文同时语言翻译：论文提案

同时语音翻译 (SST) 的目标是提供实时的口语翻译，即使在发言者完成句子之前。传统上，SST 主要通过级联系统来解决，将任务分解为子任务，包括语音识别、分割和机器翻译。然而，深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而，当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子，这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译，特别是在长篇设定中，即不进行预分割。我们对 E2E SST 的最新进展进行了调研，评估了 SST 的主要障碍以及其与长篇情景的相关性，并提出了应对这些挑战的方法。

Oct, 2023

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

RealTranS: 基于卷积加权缩减 Transformer 的端到端实时语音翻译

本文提出了一种基于端到端模型的实时同声传译技术 RealTranS，通过交错的卷积和单向 Transformer 层逐渐对输入语音进行降采样，再通过带权收缩操作和语义编码器将语音特征映射到文本空间。此外，为了提高模型性能，本文提出了 Blank Penalty 和 Wait-K-Stride-N 策略，实验表明 RealTranS 模型在多种延迟设置下优于先前的端到端模型及级联模型。

Jun, 2021

利用文本对齐进行联合流式自动语音识别和语音翻译的分词级被序列化输出训练

该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer，并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成，其平均 ASR 延迟为 1 秒，ST 延迟为 1.3 秒，在多语言情况下优化了输出质量表现。

Jul, 2023

USTC-NELSLIP 在 IWSLT 2021 的同声传译系统

本文介绍了中国科技大学 - 智能语音处理研究组在 IWSLT2021 同声传译（Simultaneous Speech Translation）比赛中的参赛作品。我们提出了一种新颖的同声翻译模型 Cross Attention Augmented Transducer（CAAT），该模型可以在没有单调性约束的情况下进行序列到序列任务，例如同时翻译。我们在语音到文本（S2T）和文本到文本（T2T）同时翻译任务上进行实验，结果显示 CAAT 相对于之前的最先进方法之一 wait-k 实现了更好的质量 - 延迟权衡。基于 CAAT 架构和数据增强，我们在这次评估活动中构建 S2T 和 T2T 同时翻译系统，相比去年的最佳系统，我们的 S2T 同时翻译系统平均提高了 11.3 BLEU，而我们的 T2T 同时翻译系统平均提高了 4.6 BLEU。

Jul, 2021

LAMASSU：使用神经传导器进行流媒体跨语言语音识别和翻译

本文提出了一种使用神经转导器的流式语言无关的多语言语音识别和翻译模型，采用语言无关的多语言编码器显著提高了模型效果，并探究统一预测和联合网络的优缺点，通过给编码器输入目标 LID 和连接时序分类正则化的训练，不仅显著降低了模型大小，还取得了优于单语音识别和双语言翻译模型的结果。

Nov, 2022

学习何时发声：离线模型下同时语音翻译中的延迟和质量权衡

本文提出了一种面向实际应用场景的实时语音翻译系统 SimulS2ST，支持 57 种语言对英语的翻译，具备实时调节输出延迟的功能，能够非常快速地进行语音翻译。

Jun, 2023

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023