针对跨语言任务量身定制的 “维基” 监督神经翻译
本文提出一种新的方法,使用无监督机器翻译的方法生成合成平行语料库,进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用,并且除了用于训练词向量的单语语料库外,不需要任何其他资源。在评估方面,与最近邻和 CSLS 技术相比,该方法在标准 MUSE 数据集上提高了 6 个准确度点,确立了新的最先进技术。
Jul, 2019
本文提出了一种多语种图像字幕模型,通过联合特征学习将不同语言的单词映射到共同空间,其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。
Jun, 2019
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019
本研究提出了一种全新的方法,在没有平行数据的情况下,只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术, 在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数,且能够利用少量的平行数据来提高翻译质量。
Oct, 2017
提出了一个概率框架,用于多语言神经机器翻译,特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项,自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明,在大多数方向上,我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上,BLEU 得分比最先进的无监督模型高,并且在罗马尼亚语 - 英语方向上,我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。
Feb, 2020
该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型,一种是神经模型,一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语 基准测试上,这些模型分别获得 28.1 和 25.2 BLEU 分数,比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。
Apr, 2018
通过混合监督和自我监督目标的方法,实现了覆盖数百种语言的多语言机器翻译模型的构建,该方法可在零资源情况下生成高质量翻译,甚至超过低 - 中资源语言的监督翻译质量。
Jan, 2022
本文研究了针对低资源稀有语种的无监督翻译问题,提出了一个三阶段训练方案的多语种模型,结合了单语和辅助并行数据,取得了明显优于当前无监督基准线的效果。
Sep, 2020
本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法,通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成, 并在汉语图像描述生成任务上展示了其有效性。
Oct, 2020