基于标签同步的神经转录器的端到端同时语音翻译
本文介绍了如何将神经转录器引入流式端到端语音翻译(ST)中,提出了基于注意力池化的 Transformer transducer(TT)模型以及在多语言 ST 中的应用,结果表明 TT 模型不仅显著减少了推理时间,而且在英德翻译上优于基于 ASR 和 MT 的非流式级联 ST。
Apr, 2022
同时语音翻译 (SST) 的目标是提供实时的口语翻译,即使在发言者完成句子之前。传统上,SST 主要通过级联系统来解决,将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而,当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子,这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译,特别是在长篇设定中,即不进行预分割。我们对 E2E SST 的最新进展进行了调研,评估了 SST 的主要障碍以及其与长篇情景的相关性,并提出了应对这些挑战的方法。
Oct, 2023
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
本文提出了一种基于端到端模型的实时同声传译技术 RealTranS,通过交错的卷积和单向 Transformer 层逐渐对输入语音进行降采样,再通过带权收缩操作和语义编码器将语音特征映射到文本空间。此外,为了提高模型性能,本文提出了 Blank Penalty 和 Wait-K-Stride-N 策略,实验表明 RealTranS 模型在多种延迟设置下优于先前的端到端模型及级联模型。
Jun, 2021
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式 Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的 ASR 和 ST 内容生成,其平均 ASR 延迟为 1 秒,ST 延迟为 1.3 秒,在多语言情况下优化了输出质量表现。
Jul, 2023
本文介绍了中国科技大学 - 智能语音处理研究组在 IWSLT2021 同声传译(Simultaneous Speech Translation)比赛中的参赛作品。我们提出了一种新颖的同声翻译模型 Cross Attention Augmented Transducer(CAAT),该模型可以在没有单调性约束的情况下进行序列到序列任务,例如同时翻译。我们在语音到文本(S2T)和文本到文本(T2T)同时翻译任务上进行实验,结果显示 CAAT 相对于之前的最先进方法之一 wait-k 实现了更好的质量 - 延迟权衡。基于 CAAT 架构和数据增强,我们在这次评估活动中构建 S2T 和 T2T 同时翻译系统,相比去年的最佳系统,我们的 S2T 同时翻译系统平均提高了 11.3 BLEU,而我们的 T2T 同时翻译系统平均提高了 4.6 BLEU。
Jul, 2021
本文提出了一种使用神经转导器的流式语言无关的多语言语音识别和翻译模型,采用语言无关的多语言编码器显著提高了模型效果,并探究统一预测和联合网络的优缺点,通过给编码器输入目标 LID 和连接时序分类正则化的训练,不仅显著降低了模型大小,还取得了优于单语音识别和双语言翻译模型的结果。
Nov, 2022
本文提出了一种面向实际应用场景的实时语音翻译系统 SimulS2ST,支持 57 种语言对英语的翻译,具备实时调节输出延迟的功能,能够非常快速地进行语音翻译。
Jun, 2023
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
提出了一种流式 Transformer-Transducer (T-T) 模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性,首次实现了使用单个解码器生成一对多联合输出。
Oct, 2023