USTC-NEL 在 IWSLT 2018 的语音翻译系统
本文介绍了中国科技大学 - 智能语音处理研究组在 IWSLT2021 同声传译(Simultaneous Speech Translation)比赛中的参赛作品。我们提出了一种新颖的同声翻译模型 Cross Attention Augmented Transducer(CAAT),该模型可以在没有单调性约束的情况下进行序列到序列任务,例如同时翻译。我们在语音到文本(S2T)和文本到文本(T2T)同时翻译任务上进行实验,结果显示 CAAT 相对于之前的最先进方法之一 wait-k 实现了更好的质量 - 延迟权衡。基于 CAAT 架构和数据增强,我们在这次评估活动中构建 S2T 和 T2T 同时翻译系统,相比去年的最佳系统,我们的 S2T 同时翻译系统平均提高了 11.3 BLEU,而我们的 T2T 同时翻译系统平均提高了 4.6 BLEU。
Jul, 2021
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
本文描述了 NiuTrans 端到端语音翻译系统的提交,采用 Transformer 模型,结合 Conformer、相对位置编码和堆叠音频和文本编码来增强模型表现,在训练数据扩充方面采用了英文翻译到德文的方法,最终采用集成解码方法将多个模型的预测结果融合,达到了 33.84 BLEU 点,显现了端到端模型的巨大潜力。
Jul, 2021
描述了悉尼大学&JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向,并在所有参与者中获得了最佳的分数,使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法,包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面,我们分别尝试了自回归模型和非自回归模型,还提出了两种新颖的预训练方法,即去噪训练和双向训练,取得了 SOTA 的性能。
Jul, 2021
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决方案的结果。针对文本 - 文本同时翻译,他们探索了最优的 wait-k 模型实践,并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。
May, 2021
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域:英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型,结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略(即本地一致性和 AlignAtt),他们训练了该模型,最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始,并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块,结果显示他们的升级 TTS 模块有助于改善系统性能。
Jun, 2024
本文是针对 IWSLT 2020 年的非母语演讲翻译任务的 ELITR 系统提交。我们描述了离线 ASR、实时 ASR 和离线 SLT 以及实时 SLT 的级联方法。我们从预先存在的系统池中选择我们的主要候选人,开发了一个新的端到端的通用 ASR 系统和一个针对非母语演讲的混合 ASR 系统。由于提供的小验证集不能进行复杂的验证,但我们将所有未被选中的候选人提交进行对比评估。
Jun, 2020
本文介绍了 UPC 语音翻译小组提交给 IWSLT 2023 离线语音翻译任务的成果。他们使用了基于 wav2vec2.0 和 mBART50 的基础模型, 通过 CTC 和最优传输的同时式预训练步骤,将语音编码器和文本编码器适应到一个空间中,从而最大限度地提高了机器翻译的传输学习。对于现有的 ST 语料库,他们还使用了 SegAugment 创建合成数据以更好地适应 IWSLT 测试集的自定义分割。最终,他们的最佳模型在 MuST-C tst-COMMON、IWLST.tst2020 和新发布的 IWSLT.ACLdev2023 上获得了 31.2、29.8 和 33.4 BLEU 分数。
Jun, 2023
本文介绍本团队使用 YiTrans 语音翻译系统参加 IWSLT 2022 离线任务,该系统基于大规模预训练编码器 - 解码器模型,并通过多阶段预训练策略、精细调节、数据过滤、数据增强、语音分割和多模型融合等多方面开展改进,结果显示我们的 YiTrans 系统在英德、英中和英日三个方向上的性能优于去年的最优端到端系统,并在英德和英中方向上名列自动评估度量的第一。
Jun, 2022