IWSLT 2022 方言和低资源语音翻译任务的 ON-TRAC 联盟系统

May, 2022

IWSLT 2022 方言和低资源语音翻译任务的 ON-TRAC 联盟系统

ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks

Marcely Zanon Boito, John Ortega, Hugo Riguidel, Antoine Laurent, Loïc Barrault...

TL;DR本文介绍了 ON-TRAC 联盟为 2022 年 IWSLT 评测的两个挑战领域（低资源和方言演讲翻译）开发的翻译系统，该系统包括利用传递学习的管道方法和基于 wav2vec 2.0 模型转换的语音转换模型等。

Abstract

This paper describes the on-trac consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2022: →

on-trac consortium translation systems low-resource dialect speech translation end-to-end model

发现论文，激发创造

2020 年 IWSLT 挑战赛：ON-TRAC 贯穿端到端和同时语音翻译联盟

该研究论文讲述了 ON-TRAC Consortium 翻译系统在 2020 年 IWSLT 评估活动中开发的两个挑战赛轨道（离线语音翻译和同传语音翻译）的使用，主要使用基于注意力机制的编码器 - 解码器模型进行训练，该模型实现了数据增强和多模型集成等贡献，并探讨了一种控制 ASR+MT 级联延迟的算法，以实现良好的延迟 - 质量折衷的平衡。

May, 2020

基于预训练 ASR 模型的低资源语音转文本翻译策略

本文提出了改进低资源语音转文本翻译性能的技术和发现，实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化，CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验，确定了对改进低资源设置最有贡献的各种因素（初始化、目标和超参数）。在只有 300 小时的预训练数据下，模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数，比 IWSLT 2022 的先前发表作品高 1.6 个百分点。

May, 2023

NAVER LABS Europe 的多语种语音翻译系统对 IWSLT 2023 低资源轨道的支持

本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统，着重研究了在低资源情况下使用多语种参数高效解决方案，利用强大的预训练模型来最大化翻译质量的工作。

Jun, 2023

KIT 的 IWSLT 2023 多语言语音翻译系统

本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统，使用了 kNN-MT 方法进行有效适应，该系统远优于其端对端对应物。

Jun, 2023

2021 年 IWSLT USYD-JD 语音翻译系统

描述了悉尼大学＆JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向，并在所有参与者中获得了最佳的分数，使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法，包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面，我们分别尝试了自回归模型和非自回归模型，还提出了两种新颖的预训练方法，即去噪训练和双向训练，取得了 SOTA 的性能。

Jul, 2021

低资源自动语音识别的方言适应和数据增强：MADASR 2023 挑战中的 TalTech 系统

通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应，Tallinn University of Technology（TalTech）在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进，并实现了参与团队中最低的词错误率。

Oct, 2023

ESPnet-ST IWSLT 2021 离线语音翻译系统

本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力，结合多种技术如序列级知识蒸馏、Conformer 编码器等，同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。

Jul, 2021

2021 年 IWSLT 的 Volctrans 神经语音翻译系统

该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统，包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译，在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值，并接近强级联解决方案的结果。针对文本 - 文本同时翻译，他们探索了最优的 wait-k 模型实践，并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。

May, 2021

Transsion TSUP 的语音识别系统用于 ASRU 2023 MADASR 挑战

该研究提出了一种语音识别系统，专门用于适应资源有限的印度语言，采用 ASR 模型和 KenLM 语言模型，取得了较低的错误率。

Jul, 2023

通过合成音频数据进行端到端低资源语音翻译

我们在国际口语翻译会议 (IWSLT 2024) 上描述了我们的系统提交，用于爱尔兰 - 英语语音翻译。我们基于 Whisper 构建了端到端系统，并采用了一些数据增强技术，如语音回译和噪声增强。我们研究了使用合成音频数据的影响，并讨论了几种丰富信号多样性的方法。

Jun, 2024