知识蒸馏的端到端语音翻译:FBK@IWSLT2020
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
本文主要研究了与语音翻译相关的模型训练成本问题,通过研究 ASR 预训练、数据过滤和音频分段等因素,提出了一种轻量级的训练策略,实现在降低模型训练成本的同时,优化了翻译质量,模型准确度得到提升。
May, 2022
本文描述了 NiuTrans 端到端语音翻译系统的提交,采用 Transformer 模型,结合 Conformer、相对位置编码和堆叠音频和文本编码来增强模型表现,在训练数据扩充方面采用了英文翻译到德文的方法,最终采用集成解码方法将多个模型的预测结果融合,达到了 33.84 BLEU 点,显现了端到端模型的巨大潜力。
Jul, 2021
本文介绍本团队使用 YiTrans 语音翻译系统参加 IWSLT 2022 离线任务,该系统基于大规模预训练编码器 - 解码器模型,并通过多阶段预训练策略、精细调节、数据过滤、数据增强、语音分割和多模型融合等多方面开展改进,结果显示我们的 YiTrans 系统在英德、英中和英日三个方向上的性能优于去年的最优端到端系统,并在英德和英中方向上名列自动评估度量的第一。
Jun, 2022
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
本文介绍了 UPC 机器翻译小组提交给 IWSLT2021 离线语音翻译任务的参赛作品,是一个基于端到端的离线语音翻译系统,采用预训练模型 Wav2Vec 2.0 和 mBART 的联合技术,在仅训练 20% 的参数的前提下获得了 27.3 的 BLEU 分数,并采用 Adapter 及预训练技术提高了收敛速度和最终结果,最后使用 Ensemble 模型取得 28.22 的 BLEU 分数,同时还使用了一种自定义细分算法,在 IWSLT2019 测试集上相对于给定细分的结果提高了 2.5 到 3 的 BLEU 分数。
May, 2021
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务:对于同时翻译,我们利用了离线训练模型已经获得的知识,并直接应用策略获得实时推理结果;对于字幕,我们对直接 ST 模型进行了调整,生成了符合规范的字幕,并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比,我们的英德 SimulST 系统显示出更低的计算感知延迟,BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。
Sep, 2023
本文介绍了 UPC 语音翻译小组提交给 IWSLT 2023 离线语音翻译任务的成果。他们使用了基于 wav2vec2.0 和 mBART50 的基础模型, 通过 CTC 和最优传输的同时式预训练步骤,将语音编码器和文本编码器适应到一个空间中,从而最大限度地提高了机器翻译的传输学习。对于现有的 ST 语料库,他们还使用了 SegAugment 创建合成数据以更好地适应 IWSLT 测试集的自定义分割。最终,他们的最佳模型在 MuST-C tst-COMMON、IWLST.tst2020 和新发布的 IWSLT.ACLdev2023 上获得了 31.2、29.8 和 33.4 BLEU 分数。
Jun, 2023