2020 年 IWSLT 挑战赛:ON-TRAC 贯穿端到端和同时语音翻译联盟
本文介绍了 ON-TRAC 联盟为 2022 年 IWSLT 评测的两个挑战领域(低资源和方言演讲翻译)开发的翻译系统,该系统包括利用传递学习的管道方法和基于 wav2vec 2.0 模型转换的语音转换模型等。
May, 2022
本文介绍了我们在 IWSLT 2022 Simultaneous Speech Translation 比赛中的参赛作品,探讨了如何在不修改原始模型的情况下,在同步设置中利用离线模型的策略。在实验中,我们展示了我们的在线算法几乎与离线设置相等,而在测试集上的延迟方面比离线快 3 倍。我们还展示了在线化的离线模型在中高延迟区间比最佳 IWSLT2021 同声翻译系统表现更好,在低延迟区间则几乎持平。我们的系统已经公开发布。
Apr, 2022
本文介绍了中国科技大学 - 智能语音处理研究组在 IWSLT2021 同声传译(Simultaneous Speech Translation)比赛中的参赛作品。我们提出了一种新颖的同声翻译模型 Cross Attention Augmented Transducer(CAAT),该模型可以在没有单调性约束的情况下进行序列到序列任务,例如同时翻译。我们在语音到文本(S2T)和文本到文本(T2T)同时翻译任务上进行实验,结果显示 CAAT 相对于之前的最先进方法之一 wait-k 实现了更好的质量 - 延迟权衡。基于 CAAT 架构和数据增强,我们在这次评估活动中构建 S2T 和 T2T 同时翻译系统,相比去年的最佳系统,我们的 S2T 同时翻译系统平均提高了 11.3 BLEU,而我们的 T2T 同时翻译系统平均提高了 4.6 BLEU。
Jul, 2021
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决方案的结果。针对文本 - 文本同时翻译,他们探索了最优的 wait-k 模型实践,并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。
May, 2021
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域:英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型,结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略(即本地一致性和 AlignAtt),他们训练了该模型,最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始,并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块,结果显示他们的升级 TTS 模块有助于改善系统性能。
Jun, 2024
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
本文描述了 NiuTrans 端到端语音翻译系统的提交,采用 Transformer 模型,结合 Conformer、相对位置编码和堆叠音频和文本编码来增强模型表现,在训练数据扩充方面采用了英文翻译到德文的方法,最终采用集成解码方法将多个模型的预测结果融合,达到了 33.84 BLEU 点,显现了端到端模型的巨大潜力。
Jul, 2021
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
本文调查了如何将同步文本翻译方法与同时语音翻译相结合,并通过引入预决定模块来适应于端到端的同时语音翻译。同时,对将固定和灵活的预决策与固定和灵活的策略相结合的延迟质量权衡进行了详细分析。作者还设计了一种新的计算感知的延迟度量方法,该方法从平均滞后进行调整。
Nov, 2020