基于非监督统计机器翻译初始化的无监督神经机器翻译
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域,改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点,超过了当时的(监督)任务获胜者。
Feb, 2019
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018
本研究提出了一种跨语言无监督神经机器翻译框架,利用来自高资源语言对的弱监督信号,以提高零资源翻译质量。该框架基于多语言模型,不需要对标准无监督神经机器翻译进行改动,实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。
Apr, 2020
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
无监督神经机器翻译(UNMT)关注于提高无人翻译平行数据的 NMT 结果,但在突出其优势与分析除翻译准确性以外的输出方面,迄今为止还做得很少。我们聚焦于三种非常不同的语言,法语、古吉拉特语和哈萨克语,并使用不同程度的监督来训练双语 NMT 模型,并在高和低资源环境中,测量 NMT 输出的质量,并将生成的序列的词序和语义相似性与源语句和参考句子进行比较。我们还使用分层相关传播来评估源语句和目标语句对结果的贡献,并扩展了先前作品对 UNMT 范式的发现。
Dec, 2023
本文介绍了一种将无监督机器翻译和自监督 NMT 相结合的方法,该方法利用合成数据生成技术和 back-translation 的方法提高 SSNMT 的性能,特别是在缺乏语言对数据的情况下可以对距离较远的语言对进行翻译。
Jul, 2021
本文旨在解决源语言文本资源匮乏时,因失衡的训练数据导致无监督神经机器翻译系统(UNMT)性能低下的问题,提出基于自训练机制的 UNMT 系统,实验证明了其比传统 UNMT 系统的性能更好。
Apr, 2020
本论文提出了一种将基于短语的统计机器翻译模型作为后验正则化引入到无监督神经机器翻译模型的训练过程中,以提高翻译质量的方法,并在 en-fr 和 en-de 翻译任务上进行实验,最终取得了新的最佳性能。
Jan, 2019
本研究提出了一种基于多模态机器翻译框架的无监督神经机器翻译方法,通过图像识别加强双向多模态翻译的学习效果,在 Multi30K 数据集上与传统基于文本的神经机器翻译相比,本方法有更好的实验结果。
Nov, 2018