针对跨语言任务量身定制的 “维基” 监督神经翻译

EMNLPApr, 2021

针对跨语言任务量身定制的 “维基” 监督神经翻译

"Wikily" Supervised Neural Translation Tailored to Cross-Lingual Tasks

Mohammad Sadegh Rasooli, Chris Callison-Burch, Derry Tanti Wijaya

TL;DR该研究提出一种使用维基百科的简单但有效的方法，用于神经机器翻译以及图像字幕和依赖分析的跨语言任务，同时不使用来自外部平行数据或目标语言的监督模型的直接监督。

Abstract

We present a simple but effective approach for leveraging wikipedia for neural machine translation as well as cross-lingual tasks of

wikipedia neural machine translation cross-lingual tasks image captioning dependency parsing

发现论文，激发创造

无监督机器翻译实现双语词库归纳

本文提出一种新的方法，使用无监督机器翻译的方法生成合成平行语料库，进而提取双语词汇表。该方法可与任何词向量和跨语言映射技术一起使用，并且除了用于训练词向量的单语语料库外，不需要任何其他资源。在评估方面，与最近邻和 CSLS 技术相比，该方法在标准 MUSE 数据集上提高了 6 个准确度点，确立了新的最先进技术。

Jul, 2019

来自单语多模数据的无监督双语词典归纳

本文提出了一种多语种图像字幕模型，通过联合特征学习将不同语言的单词映射到共同空间，其中学习了从句子上下文中分离出的语言特征和与单词相关的局部视觉特征。实验结果表明该方法在多个语言对上具有有效性。

Jun, 2019

跨语言语言模型预训练

本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式，另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。

Jan, 2019

无配对跨语言图像字幕生成和自监督奖励

本文介绍一种利用增强学习的自监督奖励和多级视觉语义匹配模型来生成跨语言图像描述的方法，在英语和汉语两种语言测试中分别取得了显著的性能提升。

Aug, 2019

无监督神经机器翻译

本研究提出了一种全新的方法，在没有平行数据的情况下，只利用单语数据即可训练 NMT 系统。这种基于注意力机制的编码器解码器模型结合去噪和回译技术，在 WMT 2014 的法英和德英翻译中获得了 15.56 和 10.21 BLEU 分数，且能够利用少量的平行数据来提高翻译质量。

Oct, 2017

无监督机器翻译的多语言视角

提出了一个概率框架，用于多语言神经机器翻译，特别针对无监督翻译。通过使用一个新型的跨语言翻译损失项，自然地利用其他包含辅助平行数据的语言作为源或目标语之一。实验证明，在大多数方向上，我们的方法导致在 WMT'14 英语 - 法语、WMT'16 英语 - 德语和 WMT'16 英语 - 罗马尼亚语数据集上，BLEU 得分比最先进的无监督模型高，并且在罗马尼亚语 - 英语方向上，我们获得了比最佳无监督模型高 1.65 的 BLEU 优势。

Feb, 2020

基于短语和神经网络的无监督机器翻译

该研究研究了如何在只有大型单语语料库的情况下学习翻译。提出了两种模型，一种是神经模型，一种是基于短语的模型。这些模型通过参数的精心初始化、语言模型的去噪效应和反向迭代自动生成的并行数据来提高翻译性能。在 WMT'14 英语 - 法语和 WMT'16 德语 - 英语基准测试上，这些模型分别获得 28.1 和 25.2 BLEU 分数，比现有方法的 BLEU 分数高出 11 个分数。方法在英语 - 乌尔都语和英语 - 罗马尼亚语等低资源语言中也取得了良好的结果。

Apr, 2018

探索有监督学习和自监督学习之间的协同作用：迈向多语言机器翻译的下一个 1000 种语言

通过混合监督和自我监督目标的方法，实现了覆盖数百种语言的多语言机器翻译模型的构建，该方法可在零资源情况下生成高质量翻译，甚至超过低 - 中资源语言的监督翻译质量。

Jan, 2022

利用多语言技术进行非监督式稀有语言机器翻译

本文研究了针对低资源稀有语种的无监督翻译问题，提出了一个三阶段训练方案的多语种模型，结合了单语和辅助并行数据，取得了明显优于当前无监督基准线的效果。

Sep, 2020

UNISON: 无配对跨语言图像字幕

本文提出了一种新颖的基于跨语言无配对数据的图像描述生成方法，通过跨语言的自动编码和跨媒体非监督特征映射实现从图像模态到语言模态的生成，并在汉语图像描述生成任务上展示了其有效性。

Oct, 2020