分解式神经机器翻译
本文介绍一种利用词对齐算法的数据增强方法来解决神经机器翻译中 out-of-vocabulary 词的翻译问题,并结合字典翻译在 WMT14 英-法翻译任务上实现比不使用该方法更高的 BLEU 分数。
Oct, 2014
通过将单语数据与自动背景翻译配对,我们未改变神经网络结构,使用目标语单语训练数据进行神经机器翻译(NMT)模型的训练,并在多项任务上取得最新的最优结果(最高+2.8-3.7 BLEU),并证明了使用领域单语和平行数据进行微调,对IWSLT 15任务英德翻译有实质性的改善。
Nov, 2015
该研究提出一种简单的解决方案,使用单个神经机器翻译模型在多种语言之间进行翻译,并且通过在输入句子的开头引入人工标记来指定所需的目标语言,这种方法不需要更改模型框架,该模型的剩余组件包括编码器、解码器和注意力是不变的,并共享所有语言。我们的方法使用共享的词块词汇表,不需要增加任何参数,在保持模型参数总数恒定的情况下,还经常提高所有涉及的语言对的翻译质量,甚至可以在训练期间从未看到的语言对之间进行隐式桥接,因此,我们的翻译模型不限于训练时的语言对,具有一定的通用性和迁移能力。
Nov, 2016
论文提出基于神经网络模型输出端单词的形态和语法分解(因子)的分步神经机器翻译(FNMT),解决了机器翻译中目标语言词汇量和未知词汇数产生的问题。在IWSLT'15英法任务中,FNMT模型表现优异,达到了与基于单词和基于BPE的神经机器翻译系统在BLEU和METEOR等质量评估指标上相当的效果。
Dec, 2017
通过搜索引擎检索以前见过的语句,然后提取这些语句中与源语句匹配的$n$-grams以实现将历史翻译例子加入到神经机器翻译模型中,因此提高翻译效果。
Apr, 2018
该研究论文提出了一种基于字符级别的神经机器翻译方法,引入了目标语言的形态信息加强解码器的性能,适用于翻译形态丰富的语言,如德语、俄语和土耳其语,并通过实验证明了其优越性。
Apr, 2018
本文追溯了现代神经机器翻译体系结构的起源,重点探讨了单个神经网络在翻译中的应用,其中涉及到word 和 sentence embedding 以及编码器-解码器网络家族的早期示例,并总结了该领域的最新趋势。
Dec, 2019
通过研究 NMT 模型训练过程中的能力表现,发现其在学习目标语言模型、逐词翻译和复杂重排序模式方面的能力表现与传统的 SMT 模型有明显差异,并探讨了这种理解对于优化 NMT 模型的实际应用。
Sep, 2021
无监督神经机器翻译(UNMT)关注于提高无人翻译平行数据的NMT结果,但在突出其优势与分析除翻译准确性以外的输出方面,迄今为止还做得很少。我们聚焦于三种非常不同的语言,法语、古吉拉特语和哈萨克语,并使用不同程度的监督来训练双语NMT模型,并在高和低资源环境中,测量NMT输出的质量,并将生成的序列的词序和语义相似性与源语句和参考句子进行比较。我们还使用分层相关传播来评估源语句和目标语句对结果的贡献,并扩展了先前作品对UNMT范式的发现。
Dec, 2023