本篇论文介绍了如何使用多语言神经机器翻译(multilingual NMT)解决低资源语种翻译问题,提出了一种基于迭代自训练的方法可以利用单语数据来提高零样本翻译的性能。实验结果表明,多语言 NMT 优于传统的双语 NMT,Transformer 模型优于循环神经网络模型,零样本 NMT 优于传统的基于中间语的翻译方法,甚至与完全训练的双语系统相当。
Sep, 2019
本文提出了一种基于零资源的神经机器翻译方法,该方法假设平行句子在第三种语言中生成的可能性相近,借助于一种现有的基于枢轴语言的 NMT 模型进行指导,在没有平行语料库的情况下训练源语言到目标语言的 NMT 模型。实验结果表明,该方法在各种语言对上能够显著提高 BLEU 值 3.0 点以上。
May, 2017
本文提出了一种新颖的微调算法,该算法针对最近引入的多方位、多语言神经机器翻译,该翻译使零资源机器翻译成为可能,并且在与新颖的一对多翻译策略结合使用时,我们在经验上表明,该微调算法使得多方位、多语言模型能够翻译一个零资源语言对,且与单一对神经翻译模型训练 1M 条同一语言对的直接平行句子时相当,并且比基于中继的翻译策略更好,同时只保留一个额外的注意到相关参数的副本。
Jun, 2016
该研究探索了低资源语言领域的神经机器翻译以及如何通过 NLP 和深度学习技术对语言模型进行改进
Apr, 2023
本文提出一种跨媒体对比学习方法,将几种低资源语言与高资源语言相连,通过少量的图像 - 文本对实现神经机器翻译,取得了显著的效果。
Oct, 2022
本文研究通过引入更多本地依赖关系和使用单词对齐来学习翻译过程中的句子重新排序,在低资源语言中使用神经机器翻译 (NMT) 模型,产生仅使用 7 万个训练数据令人满意的翻译结果。
Aug, 2017
本研究提出了一种跨语言无监督神经机器翻译框架,利用来自高资源语言对的弱监督信号,以提高零资源翻译质量。该框架基于多语言模型,不需要对标准无监督神经机器翻译进行改动,实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。
Apr, 2020
本研究提出了一种基于无监督学习和半监督学习的组合方法,将双重学习与零样本学习相结合,通过加强翻译任务的对偶性,并且只需要被翻译成的单一语言的单语数据,来优化机器翻译质量,结果表明该方法在零样本条件下英语、西班牙语和法语三者之间,取得了较传统 NMT 系统更好的翻译表现。
May, 2018
本文利用元学习算法 (MAML) 扩展低资源 NMT 问题,并通过多语言高资源任务进行学习来适应低资源语言,并利用全局词汇表解决不同语言的输入输出错配, 在使用 18 种欧洲语言作为源任务和 5 种不同的语言作为目标任务的情况下,相对于基于多语言、迁移学习的方法,表明所提出的方法显著优于现有方法,并仅需少量训练示例即可获得具有竞争力的 NMT 系统。
Aug, 2018
本文对低资源神经机器翻译进行了调查,并根据所使用的辅助数据将相关作品分为三类:利用源语言和 / 或目标语言的单语数据,利用来自辅助语言的数据以及利用多模态数据。该调查有助于研究人员更好地理解该领域,鼓励他们设计更好的算法,也有助于帮助行业从业者选择适合其应用程序的算法。
Jul, 2021