高效而具有竞争力的语音翻译：FBK@IWSLT2022

May, 2022

高效而具有竞争力的语音翻译：FBK@IWSLT2022

Efficient yet Competitive Speech Translation: FBK@IWSLT2022

Marco Gaido, Sara Papi, Dennis Fucci, Giuseppe Fiameni, Matteo Negri...

TL;DR本文主要研究了与语音翻译相关的模型训练成本问题，通过研究 ASR 预训练、数据过滤和音频分段等因素，提出了一种轻量级的训练策略，实现在降低模型训练成本的同时，优化了翻译质量，模型准确度得到提升。

Abstract

The primary goal of this FBK's systems submission to the IWSLT 2022 offline and simultaneous speech translation tasks is to reduce model training costs without sacrificing translation quality. As such, we first q

speech translation model training asr pre-training data filtering audio segmentation

发现论文，激发创造

IWSLT 2022 年同声传译任务 CUNI-KIT 系统

本文介绍了我们在 IWSLT 2022 Simultaneous Speech Translation 比赛中的参赛作品，探讨了如何在不修改原始模型的情况下，在同步设置中利用离线模型的策略。在实验中，我们展示了我们的在线算法几乎与离线设置相等，而在测试集上的延迟方面比离线快 3 倍。我们还展示了在线化的离线模型在中高延迟区间比最佳 IWSLT2021 同声翻译系统表现更好，在低延迟区间则几乎持平。我们的系统已经公开发布。

Apr, 2022

FBK@IWSLT2023 的直接模型对于同步翻译和自动字幕

该论文描述了 FBK 参与 IWSLT 2023 评估活动中的同时翻译和自动字幕轨道。我们的提交重点是使用直接架构来执行这两项任务：对于同时翻译，我们利用了离线训练模型已经获得的知识，并直接应用策略获得实时推理结果；对于字幕，我们对直接 ST 模型进行了调整，生成了符合规范的字幕，并利用相同的架构生成了与视听内容同步的时间戳。与 2021 年和 2022 年任务的排名前几位系统相比，我们的英德 SimulST 系统显示出更低的计算感知延迟，BLEU 提高了最多 3.5 分。我们的自动字幕系统在英德和英西文中分别比基于直接系统的唯一现有解决方案优于 3.7 和 1.7 SubER。

Sep, 2023

知识蒸馏的端到端语音翻译：FBK@IWSLT2020

本文介绍了 FBK 参加 IWSLT 2020 离线语音翻译任务的方法和成果，使用基于 Transformer 模型的端到端系统，并运用了 ASR 预训练、数据增强、多任务学习等技术，最佳 BLEU 得分达到 29，优于最近相关研究。

Jun, 2020

2021 年 IWSLT 的 Volctrans 神经语音翻译系统

该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统，包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译，在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值，并接近强级联解决方案的结果。针对文本 - 文本同时翻译，他们探索了最优的 wait-k 模型实践，并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。

May, 2021

SimulSeamless：FBK 参加 IWSLT 2024 同传

FBK 在 IWSLT 2024 的同时翻译评估竞演中通过提出的 SimulSeamless 方法参与了语音到文本翻译的子任务，使用 AlignAtt 和 SeamlessM4T 结合的中等配置，实现了无需重新训练或调整底层模型的跨注意力 SimulST 策略，在所有 Shared Task 语言中取得了可接受甚至更好的成绩，覆盖 143 多种源语言和 200 多种目标语言，并已在此链接上发布。

Jun, 2024

KIT 的 IWSLT 2023 多语言语音翻译系统

本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统，使用了 kNN-MT 方法进行有效适应，该系统远优于其端对端对应物。

Jun, 2023

ESPnet-ST IWSLT 2021 离线语音翻译系统

本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力，结合多种技术如序列级知识蒸馏、Conformer 编码器等，同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。

Jul, 2021

基于基础模型和最优输运技术的语音翻译：UPC 参加 IWSLT23 比赛

本文介绍了 UPC 语音翻译小组提交给 IWSLT 2023 离线语音翻译任务的成果。他们使用了基于 wav2vec2.0 和 mBART50 的基础模型，通过 CTC 和最优传输的同时式预训练步骤，将语音编码器和文本编码器适应到一个空间中，从而最大限度地提高了机器翻译的传输学习。对于现有的 ST 语料库，他们还使用了 SegAugment 创建合成数据以更好地适应 IWSLT 测试集的自定义分割。最终，他们的最佳模型在 MuST-C tst-COMMON、IWLST.tst2020 和新发布的 IWSLT.ACLdev2023 上获得了 31.2、29.8 和 33.4 BLEU 分数。

Jun, 2023

2021 年 IWSLT USYD-JD 语音翻译系统

描述了悉尼大学＆JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向，并在所有参与者中获得了最佳的分数，使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法，包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面，我们分别尝试了自回归模型和非自回归模型，还提出了两种新颖的预训练方法，即去噪训练和双向训练，取得了 SOTA 的性能。

Jul, 2021

2024 年 IWSLT 大会 NAIST 同时语音翻译系统

该研究论文描述了 NAIST 参与 IWSLT 2024 评估活动的同时研究领域：英语到 {德语、日语、中文} 的语音文本翻译和英语到日语的语音语音翻译。他们开发了一个多语言端到端语音文本翻译模型，结合了两个预训练语言模型 HuBERT 和 mBART。通过两种解码策略（即本地一致性和 AlignAtt），他们训练了该模型，最终采用了本地一致性策略。他们的语音语音翻译方法是以上述语音文本模型作为初始，并结合包含音素估计模型、并行声学模型和并行 WaveGAN 声码器的渐进式文本语音模块。通过应用 Transformer 架构和 AlignAtt 策略改进的渐进式文本语音模块，结果显示他们的升级 TTS 模块有助于改善系统性能。

Jun, 2024