基于多头注意力的多元化地位学习跨语言多模态表示
我们介绍了一种新颖的多模式机器翻译模型,利用平行的视觉和文本信息。该模型通过视觉注意力锚定机制链接视觉和文本语义,并实现共享的视觉 - 语言嵌入和翻译器的联合优化,取得了在 Multi30K 和 Ambiguous COCO 数据集上有竞争力的最新结果。我们还收集了一个新的多语言多模态产品描述数据集来模拟真实的国际在线购物场景。在这个数据集上,我们的视觉注意力锚定模型以大幅度优于其他方法的表现脱颖而出。
Aug, 2018
提出了一种新的方法来学习多模态多语言嵌入,用于匹配两种语言中图像及其相关标题,结合两个现有的目标函数,在模型中调整现有语言之间的词嵌入对齐,证明该方法实现了更好的泛化,在文本 - 图像和图像 - 文本检索任务中,以及标题 - 标题相似性任务中取得了最先进的性能,使用了 Multi30k 和 Microsoft-COCO 两个多模态多语言数据集进行评估。
Oct, 2019
本文研究了多模式翻译任务的两个子任务:学习翻译和学习视觉有关表征,并在多任务学习框架中通过注意力编码器 - 解码器和图像表征预测的方式实现。通过实验发现,这种方法在 Multi30K 数据集上比基准表现要好,即使在外部 MS COCO 数据集进行训练也同样有效,而在外部 News Commentary 平行文本训练翻译模型时进一步提高了性能。
May, 2017
本文提出一个使用多语言嵌入词汇表达图像语义信息的框架,将图像和文本嵌入到一个唯一的分布向量空间中,从而使得我们可以使用描述图像内容的文本查询来搜索图像,同时也可以使用图像相似性,我们使用实证研究证明了该方法的效率。
Mar, 2019
研究了多语言学习模型在何种条件下能够表现出更好的视觉语义嵌入,结果表明多语种训练比双语种训练有更好的效果,低资源语言受益于高资源语言的训练,注释同一组图像的多种语言获得了额外的提升。
Sep, 2018
我们提出了一种新的判别模型,它从多语言和多模态数据中学习嵌入,因此我们的模型可以利用多种语言的图像和描述来提高嵌入质量。通过对图像和语句进行排名、对语义文本相似性进行评估,以及对神经机器翻译进行评估,我们发现附加的多语言信号可以改进 ISR 和 STS 任务,并且判别成本也可以用于重新排列 NMT 模型产生的最佳 $n$ 列表,从而产生强大的改进。
Feb, 2017
本文介绍了一种用于匹配不同语言中的图像和句子的多模态多语言表达式学习模型,其目的是提高多语言版本的图像搜索和理解,在图像描述排名及语义文本相似度方面实现了最先进的性能。
Jul, 2017
本文提出了一种基于学习多级共享文本和视觉模态的通用语义空间的方法,通过深度卷积神经网络的多级特征映射和基于字符的语言模型的词和句子嵌入来提取多个通用语义空间,在其中进行图像和文本之间的相关性计算,通过多级多模态注意力机制来指导模型,实现了在图像语句配对的协同注意力下的短语本地化,相比先前最先进的方法性能提升了 20%-60%,并在公共基准数据集上有了新的性能纪录。
Nov, 2018
提出了一个针对两流图像 - 文本匹配的多视图注意力方法(MVAM),通过多样的注意头学习多个图像和文本表示,并将这些表示连接起来进行匹配,以实现更好的匹配性能和更全面的表示。
Feb, 2024
我们引入了一种多模态神经机器翻译模型,其中双重注意力解码器自然地整合了使用预先训练的卷积神经网络获取的空间视觉特征,弥合了图像描述和翻译之间的差距。我们的解码器通过两个独立的注意机制在生成目标语言单词时独立地关注源语言单词和图像的部分。我们发现我们的模型不仅可以高效地利用反向翻译的域内 多模态数据,还可以利用大规模的通用领域文本翻译语料库。我们还在 Multi30k 数据集上报告了最先进的结果。
Feb, 2017