ELITR 在 IWSLT 2020 的非母语语音翻译
本论文讨论了 USTC-NEL 系统在 2018 年 IWSLT 评估的语音翻译任务中的应用,使用了传统的管道系统,包含三个模块:语音识别、后处理和机器翻译。我们训练了一组混合 - HMM 模型进行语音识别,并使用语音识别输出风格的文本作为输入来训练基于 transformer 的神经机器翻译模型。在 IWSLT 2018 任务上的实验表明,相较于 KIT 的基线系统,我们的系统实现了 14.9 的 BLEU 改善。
Dec, 2018
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
本文描述了 NiuTrans 端到端语音翻译系统的提交,采用 Transformer 模型,结合 Conformer、相对位置编码和堆叠音频和文本编码来增强模型表现,在训练数据扩充方面采用了英文翻译到德文的方法,最终采用集成解码方法将多个模型的预测结果融合,达到了 33.84 BLEU 点,显现了端到端模型的巨大潜力。
Jul, 2021
本文介绍了我们在 IWSLT 2022 Simultaneous Speech Translation 比赛中的参赛作品,探讨了如何在不修改原始模型的情况下,在同步设置中利用离线模型的策略。在实验中,我们展示了我们的在线算法几乎与离线设置相等,而在测试集上的延迟方面比离线快 3 倍。我们还展示了在线化的离线模型在中高延迟区间比最佳 IWSLT2021 同声翻译系统表现更好,在低延迟区间则几乎持平。我们的系统已经公开发布。
Apr, 2022
该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域:英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型,结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略(即本地一致性和 AlignAtt),他们训练了该模型,最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始,并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块,结果显示他们的升级 TTS 模块有助于改善系统性能。
Jun, 2024
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
描述了悉尼大学&JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向,并在所有参与者中获得了最佳的分数,使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法,包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面,我们分别尝试了自回归模型和非自回归模型,还提出了两种新颖的预训练方法,即去噪训练和双向训练,取得了 SOTA 的性能。
Jul, 2021
本文介绍本团队使用 YiTrans 语音翻译系统参加 IWSLT 2022 离线任务,该系统基于大规模预训练编码器 - 解码器模型,并通过多阶段预训练策略、精细调节、数据过滤、数据增强、语音分割和多模型融合等多方面开展改进,结果显示我们的 YiTrans 系统在英德、英中和英日三个方向上的性能优于去年的最优端到端系统,并在英德和英中方向上名列自动评估度量的第一。
Jun, 2022
将大型语言模型(LLMs)集成到自动语音识别(ASR)和机器翻译(MT)系统中,通过利用 N-best 列表细化 ASR 输出和精炼 LLM 来提高翻译质量,实现了 ASR 和 MT 系统的性能改进。
Jun, 2024
本文主要研究了与语音翻译相关的模型训练成本问题,通过研究 ASR 预训练、数据过滤和音频分段等因素,提出了一种轻量级的训练策略,实现在降低模型训练成本的同时,优化了翻译质量,模型准确度得到提升。
May, 2022