WMT19 中的英捷系统:文档级 Transformer
本文介绍了微软译者参加 WMT19 新闻翻译的论文,重点关注基于深度转换模型的文档级神经机器翻译。研究团队通过数据过滤和噪声反向转换等方式构建大规模数据集,并探索了微调技术,更深层次的模型以及不同的集成策略,最终实现了对最大长度为 1000 个子词节选的文档级机器翻译。在人工评估中,研究人员发现文档级翻译系统的性能优于基于句子的翻译系统和人类参考翻译。
Jul, 2019
该研究通过在 Transformer 模型中引入上下文编码器,将文档级别的上下文信息融入原有的编码器和解码器中提高翻译质量,同时采用双倍训练方法,充分利用句子级别平行语料库和有限的文档级别平行语料库来训练模型,并通过 NIST 中英数据集和 IWSLT 法英数据集的实验表明,该方法显著提升了 Transformer 模型的性能表现。
Oct, 2018
我们参加了 WMT 2016 分享的新闻翻译任务,并为四种语言建立了神经翻译系统,每种语言都在英语和其它语言的两个方向上进行训练。使用了基于注意力的编码器 - 解码器、BPE 子词段和自动回译等技术,我们的方法使得我们的结果比基准系统提高了 4.3-11.2 BLEU,人工评估显示我们的系统在 8 个翻译方向中有 7 个是最好的约束系统。
Jun, 2016
该论文介绍爱丁堡大学参加 WMT17 共享新闻翻译和生物医学翻译任务的情况,使用了采用 Nematus 注意力编码器 - 解码器训练的神经机器翻译系统,并对层归一化、深度结构和不同的集成技术进行了广泛的实验。
Aug, 2017
通过合适的训练技术,使用原来的 Transformer 模型可以在涉及长度 2000 个单词的文档级别的翻译中取得比句子级别的模型更好的表现,并且在六种语言的九个文档级别和两个句子级别的数据集上,使用包括 BLEU,四个词法指标,三个新提出的辅助语言指标和人类评估在内的全面指标,证明了文档级别 Transformer 模型的优越性。
Oct, 2020
本文提出了 Adam Mickiewicz 大学对于 WMT 2022 通用机器翻译任务的限制性跟踪的提交结果,使用基于 transformer 架构的加权集成模型进行双向乌克兰语 <-> 捷克语翻译,使用源因子利用输入的命名实体信息,在训练数据之外使用噪声后向传递技术进行数据增强。使用 noisy back-translation 技术增加训练语料库。模型集成是由 4 个模型加权结合而成,并针对多句翻译使用了文档级模型进行训练,最后使用现有的质量估计模型和最小贝叶斯风险解码将 n-best 列表进行重排序,使得最佳假设能够根据 COMET 评估度量标准被选择。根据自动评估结果,在两个翻译方向上我们的系统排名第一。
Sep, 2022
本报告介绍了我们的 VolcTrans 系统,它是一个基于 Transformer 的多语言模型,使用从多个来源收集的数据进行训练,包括来自数据轨道的公共训练集,由 Meta AI 提供的 NLLB 数据,自收集的平行语料库和来自反向翻译的伪双语文本。在官方测试集上,我们的系统实现了 17.3 BLEU,21.9 spBLEU,和 41.9 chrF2 ++,平均所有语言对的推理速度为每秒 11.5 句,使用单个 Nvidia Tesla V100 GPU。
Oct, 2022
该论文探究利用多种不同的神经模型进行翻译的组合,其中包括递归、卷积和自注意力模型,最终结合短语基 SMT 系统的 MBR 方案,相较于强 Transformer 模型集合,取得了小但一致的收益。
Aug, 2018
本研究提出了一种利用神经模型、机器翻译、自然语言生成和元数据的迁移学习方法,用于生成长描述性摘要,旨在解决机器翻译、自然语言生成和元数据机器翻译等方面的挑战。实验结果表明,该方法可以优于现有技术,并在 WNGT 2019 中的 “文档生成和翻译” 任务中荣获全场第一。
Oct, 2019
我们探讨了基于字符级神经机器翻译的 Transformer 架构在不同语言相似度和训练数据集大小上的效果,针对捷克语、克罗地亚语、德语、匈牙利语、斯洛伐克语和西班牙语之间的翻译进行了评估,使用自动 MT 指标,证明了在相似语言之间,字符级输入分割有益;而对于不相关语言,字符级传统 Transformer 基本落后于子词级分割;我们实验证实了通过微调已经训练好的子词级模型可以弥补这一差距的先前研究结论。
Aug, 2023