Naver Labs Europe 在 WNGT 2019 中的文档级生成和翻译任务系统
本文介绍了微软译者参加 WMT19 新闻翻译的论文,重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集,并探索了微调技术,更深层次的模型以及不同的集成策略,最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中,研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。
Jul, 2019
该研究提出了一种基于自训练的方法,可以在不需要专门的并行文档级语料库和模型的情况下,将已训练好的句子级神经机器翻译模型应用于文档级机器翻译任务,并在三个文档级数据集上进行了评估,结果显示我们的方法在 BLEU 指标上具有更高的得分和更高的人类偏好度。
Mar, 2020
本文研究了使用多语言模型从有文档的教师语言到只有句子级数据的学生语言的零 - shot 情况下如何将 DocNMT 中的上下文建模转移的问题,首次将文档级翻译视为一种迁移学习问题,并使用基于简单连接的 DocNMT,探索了 3 个因素对转移的影响。实验表明,使用更多的教师语言和适当的数据平衡都有助于提高转移质量。同时多语言 DocNMT 在真实文档对或者反向翻译对数据条件下均可实现较好的性能表现。
Sep, 2021
本文介绍了我们在 WMT19 机器翻译鲁棒性任务中提交的系统,该任务旨在提高机器翻译对社交媒体中的噪声(如非正式语言和拼写错误)的稳健性。我们针对法语 - 英语和日语 - 英语两种翻译方向,提出了单一和集成系统,集成模型在所有语种中都排名第一。我们讨论了我们所做的预处理选择,并提出了我们对噪声和领域适应性鲁棒性的解决方案。
Jul, 2019
本文介绍在 WMT19 共享任务中,我们采用 Transformer 模型和 document-level 训练方式,用于英捷克翻译,以提高翻译文件的充分性和连贯性。
Jul, 2019
Personalised NMT and document-level NMT are proposed to incorporate extra-textual information directly into the machine translation process, with the aim of improving the accuracy of translation for subtitles in five languages, respectively. The main challenges are addressed by incorporating extra-textual information, improving the accuracy of cohesion devices, and proposing reliable evaluation metrics for PersNMT and DocNMT.
Feb, 2021
本文介绍了我们在 WMT2020 机器翻译共享任务中的参与情况和采用的多项神经机器翻译技术,在英汉、波兰英语和德国上索布里亚语等四个方向中,我们获得了第一名的好成绩。
Oct, 2020
本文介绍了腾讯的多语言机器翻译系统,该系统使用数据扩增、分布式稳健优化和语系分组等技术来应对数据不平衡和多语言难题,其中在 WMT22 的有限数据情况下,取得了第一名的成绩。
Oct, 2022