基于大型预训练模型的流畅翻译 ——MixMT 2022 SIT

Oct, 2022

基于大型预训练模型的流畅翻译 ——MixMT 2022 SIT

SIT at MixMT 2022: Fluent Translation Built on Giant Pre-trained Models

Abdul Rafae Khan, Hrishikesh Kanade, Girish Amar Budhrani, Preet Jhanglani, Jia Xu

TL;DR本论文介绍了史蒂文斯理工学院提交的 WMT 2022 共享任务：混合代码机器翻译并针对该任务的两个子任务的技术改进，包括采用大型预训练多语言 NMT 模型和领域内数据集以及反向翻译和集成技术等，该系统取得了子任务 2 上的第一名和子任务 1 上的第一和第三名。

Abstract

This paper describes the Stevens Institute of Technology's submission for the WMT 2022 Shared Task: code-mixed machine translation (MixMT). The task consisted of two subtasks, subtask $1$ Hindi/English to hinglish

code-mixed machine translation hinglish nmt models back-translation ensemble techniques

发现论文，激发创造

爱丁堡大学 WMT22 杂语共享任务的提交（MixMT）

该研究旨在解决低资源条件下代码混合翻译的问题，在数据生成和典藏方面投入了大量精力，通过限制解码效果得出最佳翻译结果，使用现有的机器翻译模型和对齐增强的预训练技术进行探索，最终实现了对应子任务最佳表现。

Oct, 2022

Gui at MixMT 2022: 英印混杂数据的机器翻译方法

本文讨论了在 WMT 2022 共享任务中使用 mBART 进行处理特殊预处理和后处理（从 Devanagari 到 Roman 的音译），以解决单语到机器混合翻译的任务，并讨论了针对机器混合 Hinglish 到单语英语的翻译实验。

Oct, 2022

探索文本到文本变换器的使用，实现英语到印地语机器翻译的合成混合代码技术

本研究尝试解决单语言和混合编码语言之间的翻译问题，针对单语英文到 Hinglish 的转换，我们提出了多种模型，其中使用事先训练的 mT5 和 mBART Transformer-based 编码器 - 解码器模型表现良好。同时，我们还提出了一种生成混合编码文本的无依存方法，并采用课程学习方法来提高语言模型性能。在不同的条件下，我们发现综合考虑有监督和无监督方式的生成代码混合技术竞争力强，在英语 - Hinglish 官方共享任务中我们的模型效果最佳。

May, 2021

WMT 2022 翻译建议共享任务发现

WMT 共享任务中，我们获得了 92 个参与队伍提交的数据，使用 BLEU 自动评估指标对机器翻译中的翻译建议进行了评估，并提供了英德和英汉语料库来进行两个子任务的翻译建议。

Nov, 2022

机器翻译鲁棒性首次共享任务结果

该论文介绍了首个旨在提高机器翻译鲁棒性的共享任务的研究成果，共有 11 个团队提交了 23 个系统，人工评估和自动评估 (BLEU) 均显示很高的相关性，系统均有大幅度的改进，最佳系统较基准系统提高了 22.33 个 BLEU 分值。

Jun, 2019

CALCS 2021 共享任务：用于混合语言数据的机器翻译

本文关注代码切换社交媒体数据的机器翻译，在监督和非监督环境下提供了英语 - 印地语 - 英语（英 - 汉格利什）、英语 - 西班牙语 - 英语（英 - 西班格利什）和英语 - 现代标准阿拉伯语 - 埃及阿拉伯语（英 - 埃语）的语言对，分享了共同创作语言评估数据时的见解和挑战，并为共享任务中的所有语言提供了基线。在共享任务的排行榜中，共有来自 5 个不同团队的 12 个系统提交。其中最佳表现分别为英语到印地语的 12.67% BLEU 分数和现代标准阿拉伯语 - 埃及阿拉伯语到英语的 25.72% BLEU 分数。

Feb, 2022

Silo NLP 参加 WAT2022

本文介绍了 “Silo NLP” 的多模式翻译系统在 2022 年亚洲翻译研讨会上的参赛情况，利用 Transformers 和 mBART-50 模型作为基础，提取图像中的对象标签作为视觉特征，用于英语到印度语的多模式，以及英语到马拉雅拉姆语、孟加拉语等印度语系的文本翻译任务。该系统在多个任务中表现出色。

Aug, 2022

上海交通大学 - 国立信息学研究所的 WMT20 新闻翻译任务所使用的监督式和无监督式神经机器翻译系统

本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术，在英汉、波兰英语和德国上索布里亚语等四个方向中，我们获得了第一名的好成绩。

Oct, 2020

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

NICT 的神经和统计机器翻译系统对 WMT18 新闻翻译任务的应用

本文介绍了 NICT 参与 WMT18 新闻翻译任务的结果，通过采用统计机器翻译和神经机器翻译系统以及使用大量反向翻译单语数据，结合使用 transformer architecture，对于爱沙尼亚语对英语、芬兰语对英语等语言方向实现了 BLEU 评分的领先。

Sep, 2018