多视角关注的图像文本匹配
本文提出了一个基于身份感知的两阶段框架,通过新颖的 CMCE 损失函数和潜在的共同注意机制来提高文本 - 视觉匹配的准确性,实验证明其相对于先前的最先进方法取得了显著的性能改进。
Aug, 2017
本文提出了一种基于视觉物体检测和不同文本语义的多语言多模态表示的模型,采用多头注意力机制对两种语言的文本语义和视觉对象进行细粒度对齐,从而学习到更好的视觉 - 语义嵌入空间,并在多个任务上展现了比其他方法更显著的性能提升。
Sep, 2019
本文研究图像文本匹配问题,提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐,从而推断图像与文本之间的相似性,实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。
Mar, 2018
我们提出了一种 Uncertainty-Aware Multi-View Visual Semantic Embedding (UAMVSE) 框架,通过多种视图 - 文本匹配将整体图像 - 文本匹配分解,引入了一种不确定性感知损失函数(UALoss)来自适应地建模每个视图 - 文本对应关系的不确定性,不同的权重指导模型关注不同的语义信息,增强了模型理解图像和文本的对应关系的能力。我们还设计了一种优化的图像 - 文本匹配策略,通过标准化相似度矩阵来提高模型性能。在 Flicker30k 和 MS-COCO 数据集上的实验结果表明,UAMVSE 优于最先进的模型。
Sep, 2023
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
本研究提出了一种基于文本引导注意力模型的图像字幕生成方法,其能够通过联合图片及相应说明文本的训练数据来实现视觉关注,有效地区分图像中的细小或混淆对象,进而在 MS-COCO 图像字幕生成基准测试中获得最佳性能。
Dec, 2016
本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。
Sep, 2022
我们提出了一个新的框架,使用基于排名的张量融合来显式学习准确的图像文本相似度函数,通过通用的跨模态重新排序方案实现了模型效果和模型复杂性之间的平衡,从而达到了优秀的匹配性能。
Aug, 2019