具有潜在共同关注的身份感知文本 - 视觉匹配
本文研究图像文本匹配问题,提出了一种使用交叉注意力机制的方法来发现包括图像区域和句子单词在内的全部潜在对齐,从而推断图像与文本之间的相似性,实验结果在 MS-COCO 和 Flickr30K 数据集上均表现为最先进的水平。
Mar, 2018
通过提出选择性多模态长短时记忆网络 (sm-LSMT),并在其每个时间步上应用适应性注意力机制,同时通过预测成对实例结点显著图来选择性地注意一对图像和句子实例,从而比较和测量它们之间的相似度,并通过多个时间步骤内的多个局部相似度测量,使用隐藏状态来最终聚合它们,以获得期望的全局相似度,我们可以更好地匹配具有复杂内容的图像和句子,并在两个公共基准数据集上实现最先进的结果。
Nov, 2016
本文提出了一种基于 TIMAM 和 BERT 的文本图像匹配模型,该模型可以学习到模态不变的特征表示,在四个公开数据集上取得了最优的交叉模态匹配性能,排名 1 的准确率提高了 2%到 5%。
Aug, 2019
提出了一个针对两流图像 - 文本匹配的多视图注意力方法(MVAM),通过多样的注意头学习多个图像和文本表示,并将这些表示连接起来进行匹配,以实现更好的匹配性能和更全面的表示。
Feb, 2024
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在 MS-COCO 和 Flickr30K 数据集上取得了相对于最佳方法分别为 6.8%和 4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K 数据集上分别提高了 12.6%和 5.8%的图像检索和字幕检索。
Sep, 2019
论文提出一种新的方法,使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入,并通过建模嵌入的积极感知提出新的三元损失函数,以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率,实验结果表明,该方法的表现优于现有方法,并且对于现实世界的文本到视觉检索也十分有效。
May, 2019
本文提出了一种无词典的场景图像文本识别方法,该方法基于一种基于 LSTM 的软视觉注意模型,该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量,实现了对空间信息的编码,从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外,我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果,以标准的 SVT 和 ICDAR'03 场景文本数据集为基础,证明了我们方法在无约束文本识别中的卓越表现。
Jun, 2017
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉 - 文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在 Flickr 30k 和 MSCOCO 上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024
视频时刻检索是一项具有挑战性的任务,需要视频和文本模态之间的精细交互。我们评估了一个最近提出的解决方案,在视频 grounding 任务中引入了不对称协同注意力网络,并在两个模态中加入了动量对比损失,其整合效果在 TACoS 数据集上表现更好,并在 ActivityNet Captions 上表现可比的结果,而且相对于基线模型,参数数量显著减少。
Dec, 2023