Naver Labs Europe 在 WNGT 2019 中的文档级生成和翻译任务系统

Oct, 2019

Naver Labs Europe 在 WNGT 2019 中的文档级生成和翻译任务系统

Naver Labs Europe's Systems for the Document-Level Generation and Translation Task at WNGT 2019

Fahimeh Saleh, Alexandre Bérard, Ioan Calapodescu, Laurent Besacier

TL;DR本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法，用于生成长描述性摘要，旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明，该方法可以优于现有技术，并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。

Abstract

Recently, neural models led to significant improvements in both machine translation (MT) and natural language generation tasks (NLG). However, generation of long descriptive summaries conditioned on →

neural models machine translation natural language generation structured data transfer learning

发现论文，激发创造

微软译者在 WMT 2019 上：朝着大规模文件级神经机器翻译迈进

本文介绍了微软译者参加 WMT19 新闻翻译的论文，重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集，并探索了微调技术，更深层次的模型以及不同的集成策略，最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中，研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。

Jul, 2019

文档级神经机器翻译：方法与评估调查

这篇综述论文旨在总结文档级机器翻译的最新研究进展，重点讨论了神经网络模型、训练策略、评估指标等方面的创新，为该领域的研究者提供状态认知和未来方向。

Dec, 2019

神经生成和翻译第三次研讨会结果

本文概述了第三届神经网络生成和翻译研讨会的研究趋势，介绍了两项共享任务的结果，即提高神经机器翻译的效率以及文档级生成和翻译。

Oct, 2019

使用自我训练在句子级神经机器翻译模型中捕获文档上下文

该研究提出了一种基于自训练的方法，可以在不需要专门的并行文档级语料库和模型的情况下，将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务，并在三个文档级数据集上进行了评估，结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。

Mar, 2020

多语言文档级翻译实现从句子到文档的零 - shot 转移

本文研究了使用多语言模型从有文档的教师语言到只有句子级数据的学生语言的零 - shot 情况下如何将 DocNMT 中的上下文建模转移的问题，首次将文档级翻译视为一种迁移学习问题，并使用基于简单连接的 DocNMT，探索了 3 个因素对转移的影响。实验表明，使用更多的教师语言和适当的数据平衡都有助于提高转移质量。同时多语言 DocNMT 在真实文档对或者反向翻译对数据条件下均可实现较好的性能表现。

Sep, 2021

Naver Labs Europe WMT19 机器翻译鲁棒性任务系统

本文介绍了我们在 WMT19 机器翻译鲁棒性任务中提交的系统，该任务旨在提高机器翻译对社交媒体中的噪声（如非正式语言和拼写错误）的稳健性。我们针对法语 - 英语和日语 - 英语两种翻译方向，提出了单一和集成系统，集成模型在所有语种中都排名第一。我们讨论了我们所做的预处理选择，并提出了我们对噪声和领域适应性鲁棒性的解决方案。

Jul, 2019

WMT19 中的英捷系统：文档级 Transformer

本文介绍在 WMT19 共享任务中，我们采用 Transformer 模型和 document-level 训练方式，用于英捷克翻译，以提高翻译文件的充分性和连贯性。

Jul, 2019

面向个性化及文档级对话机器翻译

Personalised NMT and document-level NMT are proposed to incorporate extra-textual information directly into the machine translation process, with the aim of improving the accuracy of translation for subtitles in five languages, respectively. The main challenges are addressed by incorporating extra-textual information, improving the accuracy of cohesion devices, and proposing reliable evaluation metrics for PersNMT and DocNMT.

Feb, 2021

上海交通大学 - 国立信息学研究所的 WMT20 新闻翻译任务所使用的监督式和无监督式神经机器翻译系统

本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术，在英汉、波兰英语和德国上索布里亚语等四个方向中，我们获得了第一名的好成绩。

Oct, 2020

Tencent WMT22 大规模非洲语言多语言机器翻译系统

本文介绍了腾讯的多语言机器翻译系统，该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题，其中在 WMT22 的有限数据情况下，取得了第一名的成绩。

Oct, 2022