想象力提高多模翻译
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
本文结合视觉和语言的跨语言预训练方法,使用三重并行视觉和语言语料库进行预训练,并说明所学习的基于视觉的跨语言表示对于多模式机器翻译的性能具有领先优势。
Jan, 2021
我们引入了一种多模态神经机器翻译模型,其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征,弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内 多模态数据,还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。
Feb, 2017
本文提出一种基于视觉想象的神经机器翻译方法 ImagiT,仅需要源语言句子即可生成目标翻译,并证明该方法较传统文本翻译方法表现更好,揭示想象过程在修复缺失信息时的重要性。
Sep, 2020
提出了一种新的、全面的端到端方法,使用条件批量归一化来调制整个视觉输入处理,计算我们任务的最信息图像特征;此外,提出了一种源文本编码器表示条件下的注意机制,详述了我们的模型和图像分析管道,报告了在三个不同测试集上的最新的成果。
Dec, 2017
本文探讨了用于神经语音翻译的多任务模型,并对其进行增强,以反映两个直观概念。精准的中间表示和神经关联的模式,参与模型的训练可以提高低资源语音转录和翻译任务的性能。
Feb, 2018