Naver Labs Europe WMT19 机器翻译鲁棒性任务系统

Jul, 2019

Naver Labs Europe WMT19 机器翻译鲁棒性任务系统

Naver Labs Europe's Systems for the WMT19 Machine Translation Robustness Task

Alexandre Bérard, Ioan Calapodescu, Claude Roux

TL;DR本文介绍了我们在 WMT19 机器翻译鲁棒性任务中提交的系统，该任务旨在提高机器翻译对社交媒体中的噪声（如非正式语言和拼写错误）的稳健性。我们针对法语 - 英语和日语 - 英语两种翻译方向，提出了单一和集成系统，集成模型在所有语种中都排名第一。我们讨论了我们所做的预处理选择，并提出了我们对噪声和领域适应性鲁棒性的解决方案。

Abstract

This paper describes the systems that we submitted to the WMT19 Machine Translation robustness task. This task aims to improve MT's robustness to noise found on →

machine translation robustness social media ensemble models domain adaptation

发现论文，激发创造

NTT 关于 WMT19 健壮性任务的机器翻译系统

本文介绍 NTT 的 WMT19 鲁棒性任务中的提交成果，并使用合成语料库、领域自适应和占位符机制等技术，大幅优于以前的基线。实验结果显示，占位符机制可以在翻译过程中临时替换包括表情符号等非标准标记，即使在处理带噪音的文本时也能提高翻译精度。

Jul, 2019

机器翻译鲁棒性首次共享任务结果

该论文介绍了首个旨在提高机器翻译鲁棒性的共享任务的研究成果，共有 11 个团队提交了 23 个系统，人工评估和自动评估 (BLEU) 均显示很高的相关性，系统均有大幅度的改进，最佳系统较基准系统提高了 22.33 个 BLEU 分值。

Jun, 2019

带有领域敏感的伪数据的健壮机器翻译：百度 - 俄勒冈州立大学 WMT19 MT 健壮性共享任务系统报告

本文介绍了 Baidu 和 Oregon State University 在 WMT 2019 机器翻译鲁棒性共享任务中联合开发的机器翻译系统。通过使用领域敏感的训练方法和后翻译的伪噪声源句子生成平行数据集，与基线方法相比，在 En-Fr 和 Fr-En 翻译中都取得了超过 10 BLEU 提升。

Jun, 2019

爱丁堡大学 WMT17 神经机器翻译系统

该论文介绍爱丁堡大学参加 WMT17 共享新闻翻译和生物医学翻译任务的情况，使用了采用 Nematus 注意力编码器 - 解码器训练的神经机器翻译系统，并对层归一化、深度结构和不同的集成技术进行了广泛的实验。

Aug, 2017

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022

WMT 16 爱丁堡神经机器翻译系统

我们参加了 WMT 2016 分享的新闻翻译任务，并为四种语言建立了神经翻译系统，每种语言都在英语和其它语言的两个方向上进行训练。使用了基于注意力的编码器 - 解码器、BPE 子词段和自动回译等技术，我们的方法使得我们的结果比基准系统提高了 4.3-11.2 BLEU，人工评估显示我们的系统在 8 个翻译方向中有 7 个是最好的约束系统。

Jun, 2016

悉尼大学参加 WMT19 的机器翻译系统

本文介绍了悉尼大学参加 WMT 2019 共享新闻翻译任务的提交。通过将学术研究中的最新的有效策略（例如，BPE、回译、多特征数据选择、数据增强、贪婪模型集成、reranking、ConMBR 系统组合和后处理）与自注意力 Transformer 网络相结合，提出了一种新的增强方法 Cycle Translation 和数据混合策略大 / 小并行构建，全面利用合成语料库。大量实验证明，添加上述技术可以使 BLEU 分数不断提高，最佳结果比基准线（使用原始平行语料库训练的 Transformer 集成模型）的 BLEU 分数高出约 5.3 个 BLEU 分，达到最先进的表现。

Jun, 2019

微软提交 WMT2018 新闻翻译任务报告：如何不再担忧，爱上数据

本文介绍了微软参加 WMT2018 新闻翻译共享任务的提交，对于英语到德语的一种语言方向中，基于最佳实践，采用了最先进的模型和新数据过滤和句子加权方法来训练在 Paracrawl 上实验结果表明，根据自动指标 (BLEU)，我们在此子任务中得分最高，比接下来最强大的系统高近 2 BLEU 分数，根据人工评估，我们在受限系统中排名第一，我们认为这主要是由于我们的数据过滤 / 加权组合的实施。

Sep, 2018

大规模多语言神经机器翻译的鲁棒性实证研究

我们通过实证研究了印度尼西亚 - 汉语翻译在不同噪声环境下的翻译稳健性，并创建了一个用于评估翻译稳健性的基准数据集。

May, 2024

Naver Labs Europe 在 WNGT 2019 中的文档级生成和翻译任务系统

本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法，用于生成长描述性摘要，旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明，该方法可以优于现有技术，并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。

Oct, 2019