无监督双语词典归纳的局限性
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
这篇论文介绍了一种使用合成的双语数据来训练无监督神经机器翻译系统的方法,并使用增量式的反向翻译方法来提高其性能。 在 WMT16 德英新闻翻译任务上,该方法在无监督机器翻译方面实现了新的技术水平。
Oct, 2018
本研究提出了一种跨语言无监督神经机器翻译框架,利用来自高资源语言对的弱监督信号,以提高零资源翻译质量。该框架基于多语言模型,不需要对标准无监督神经机器翻译进行改动,实验结果表明使用该框架可以在六个基准无监督翻译方向上将翻译质量提高超过 3 个 BLEU 分数。
Apr, 2020
通过对不同语言对、语料库和低资源语言实施 extensive empirical evaluation,我们发现 unsupervised machine translation 的性能很大程度上取决于 source 和 target corpora 的相似度、随机 word embedding initialization,以及源语言和目标语言的文字脚本。因此,我们提倡对 unsupervised MT 系统进行广泛的实证评估,并鼓励在最有前途的范式上继续研究。
Apr, 2020
提出了一个概率框架,用于多语言神经机器翻译,特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项,自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明,在大多数方向上,我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上,BLEU 得分比最先进的无监督模型高,并且在罗马尼亚语 - 英语方向上,我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。
Feb, 2020
本文针对现有无监督机器翻译存在的不足之处,通过利用子词信息、开发理论上有根据的无监督调优方法和引入联合优化程序等手段,改进了统计机器翻译系统,并将其用于初始化双 NMT 模型并进行后续微调,使无监督机器翻译的表现大幅度提升。在英德无监督机器翻译领域,改进后的 SMT 系统相较之前最好的无监督系统 BLEU 值提高了 5.5 个百分点,超过了当时的(监督)任务获胜者。
Feb, 2019
本文提出了一种过程,结合自监督的双文本挖掘与自监督的词对齐,从而产生更高质量的双语词典,进一步地,学习过滤结果的词汇条目,最终模型在 12 种语言对上的 BUCC 2020 共享任务中,比现有技术提高了 14 个 F1 点,同时提供更加可解释的方法和丰富的词义语境推理能力。
Jan, 2021
本文提出了一种基于 SMT 的新颖方法,通过跨语言嵌入映射从单语料库中诱导短语表,再将其与 N-gram 语言模型相结合,通过无监督超参数微调的变体来实现迭代反向翻译,并在 WMT 2014 中实现了超过 7-10 BLEU 点的改进,与监督 SMT 相比关闭了 2-5 BLEU 点的差距。
Sep, 2018