IWSLT 2022 方言和低资源语音翻译任务的 ON-TRAC 联盟系统
该研究论文讲述了 ON-TRAC Consortium 翻译系统在 2020 年 IWSLT 评估活动中开发的两个挑战赛轨道(离线语音翻译和同传语音翻译)的使用,主要使用基于注意力机制的编码器 - 解码器模型进行训练,该模型实现了数据增强和多模型集成等贡献,并探讨了一种控制 ASR+MT 级联延迟的算法,以实现良好的延迟 - 质量折衷的平衡。
May, 2020
本文提出了改进低资源语音转文本翻译性能的技术和发现,实验结果显示多语言自动语音识别系统在低资源场景下作为良好的初始化,CTC 作为额外的目标有助于重新排序内部表示并提高最终翻译。通过实验,确定了对改进低资源设置最有贡献的各种因素(初始化、目标和超参数)。在只有 300 小时的预训练数据下,模型在 Tamasheq - French 数据中取得了 7.3 的 BLEU 分数,比 IWSLT 2022 的先前发表作品高 1.6 个百分点。
May, 2023
本文介绍了 NAVER LABS Europe 的 Tamasheq-French 和 Quechua-Spanish 语音翻译系统,着重研究了在低资源情况下使用多语种参数高效解决方案,利用强大的预训练模型来最大化翻译质量的工作。
Jun, 2023
本文介绍了一种针对具有口音的输入语音和术语密集的内容进行科学会议演讲翻译的语音翻译系统,使用了 kNN-MT 方法进行有效适应,该系统远优于其端对端对应物。
Jun, 2023
描述了悉尼大学&JD 在 IWSLT 2021 低资源语音翻译任务中的联合提交。我们参加了斯瓦希里语 - 英语方向,并在所有参与者中获得了最佳的分数,使用基于管道框架的 ASR 和 NMT。我们采用了多种技术方法,包括基于知识蒸馏的后向转换、多特征重排和传导调整。在模型结构方面,我们分别尝试了自回归模型和非自回归模型,还提出了两种新颖的预训练方法,即去噪训练和双向训练,取得了 SOTA 的性能。
Jul, 2021
通过使用 aligned data augmentation 技术增强语言多样性和 deep prefix tuning 方法进行方言适应,Tallinn University of Technology(TalTech)在 ASRU MADASR 2023 Challenge 的两个轨道中都取得了显著的改进,并实现了参与团队中最低的词错误率。
Oct, 2023
本研究描述了 ESPnet-ST 组在 IWSLT 2021 中提交的语音翻译模型。通过训练数据、模型架构和音频分割等方面的努力,结合多种技术如序列级知识蒸馏、Conformer 编码器等,同时使用模型组合达到了 31.4 BLEU 的最佳翻译性能。
Jul, 2021
该论文介绍了 Volctrans 团队在 IWSLT 2021 中提交的系统,包括离线语音翻译和文本 - 文本同时翻译。他们采用端到端模型进行离线语音翻译,在 MuST-C 测试集上比基准结果提高了 8.1 BLEU 分值,并接近强级联解决方案的结果。针对文本 - 文本同时翻译,他们探索了最优的 wait-k 模型实践,并且在相同的延迟范围内超过了基准结果约 7 BLEU 分值。他们已发布代码和模型以促进未来的研究工作和工业应用。
May, 2021
该研究提出了一种语音识别系统,专门用于适应资源有限的印度语言,采用 ASR 模型和 KenLM 语言模型,取得了较低的错误率。
Jul, 2023
我们在国际口语翻译会议 (IWSLT 2024) 上描述了我们的系统提交,用于爱尔兰 - 英语语音翻译。我们基于 Whisper 构建了端到端系统,并采用了一些数据增强技术,如语音回译和噪声增强。我们研究了使用合成音频数据的影响,并讨论了几种丰富信号多样性的方法。
Jun, 2024