基于双语词典的神经机器翻译,无需使用平行语料
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
本文提出了一种基于多任务学习方法,利用源端的单语言语言资源来解决神经机器翻译中由于缺少平行文本造成模型质量差的问题,并采用语义分析、句法分析和命名实体识别等辅助任务以将语义和 / 或句法知识注入到翻译模型中,实现了在英法、英波斯和英越三种翻译任务上的有效性验证。
May, 2018
提出了一种基于单语语料的机器翻译方法,该方法使用深度学习技术将两种不同语言的句子映射到相同的潜在空间中,从而学习翻译而不使用任何标记数据,该方法在两种语言对的两个广泛使用的数据集上表现出色。
Oct, 2017
本文通过无监督的方式对单语词嵌入空间进行对齐,构建两种语言之间的双语词典,旨在为全自动的机器翻译提供潜在影响。实验表明该方法在英语 - 俄语和英语 - 中文等语言对中效果很好,且无需使用字符信息。
Oct, 2017
本文对神经机器翻译的数据生成进行了系统研究,比较了不同的单语数据使用方法和多个数据生成过程,并介绍了一些便宜易实现的新数据模拟技术。研究发现,通过回译技术生成人工平行数据非常有效,并给出了原因解释。
Mar, 2019
即使有深度学习和大规模语言建模的最新发展,对于低资源语言的机器翻译任务仍然是一个挑战。我们提出了一种训练策略,依赖于从单语语料库中挖掘的伪平行句对和从单语语料库中反向翻译的合成句对。我们尝试了不同的训练计划,并在基于仅反向翻译数据训练的基线上实现了高达 14.5 BLEU 分(从英语到乌克兰语)的改进。
Oct, 2023
本文提出了一种新的机器翻译数据集,利用 GIF 作为中介,从单语注释器中收集平行句子,从而降低了需要寻找、训练双语人员的成本,并经过内在和外在评估,发现使用 GIFs 收集的句子确实具有更高的质量。
Jun, 2021
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
本论文提出一种结合了回译和多语言神经机器翻译技术的新技术,通过为一个语言对训练一个模型来改善在低资源和跨领域情况下的机器翻译效果,并且能显著降低培训和部署成本。
May, 2018