多模态张量融合和重新排序的图像和文本匹配
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文介绍了使用 Transformer Encoder Reasoning Network 架构来进行图像与文本的自动匹配,以便于实现大规模信息检索。试验结果表明,本架构成功实现了该任务且获得了创新性的成果。
Apr, 2020
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
本文提出了一种基于 fine-tuning 的框架,将任何预先训练的文本 - 图像多模态模型转换为高效的检索模型,并通过 cooperative retrieve-and-rerank 方法结合双网络和交叉编码器,实现更准确、更高效的跨模态检索。
Mar, 2021
本文提出一种新的跨模态检索方法,利用生成式模型学习多模态数据的全局和本地特征,从而在 MSCOCO 数据集上实现了最先进的跨模态检索结果。
Nov, 2017
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
本文提出了一种交叉模态检索系统,利用图像和文本编码,实现了同时检索模态的功能,避免了需要为每个模态使用不同网络的缺点。在所使用的知识中,本文是第一篇采用单一网络和融合的图像 - 文本嵌入进行跨模态检索的工作。在 MS-COCO 和 Flickr30K 两个著名的多模态数据集上对该方法进行了评估。
Jul, 2018
本文提出了一种新的可学习的基于框架的重新排序范式,该范式可以捕捉图片和文本之间的邻居关系,提高单模态检索任务的性能。实验结果表明,该范例具有很好的鲁棒性和推广性能力,并且可以在不同的基础模型上取得很好的效果。
Apr, 2023
该研究提出了一个两阶段模型:第一阶段使用常规向量距离度量,快速对候选项进行修剪;第二阶段采用双编码器体系结构,对参考文本 - 候选项 - 文本进行有效注视和重新排序,利用视觉和语言预训练网络,实现了组合先前方法的优点。
May, 2023