图像文本匹配和检索的Transformer推理网络
本文提出了一种新的系统,以区分性地嵌入图像和文本到共享的视觉-文本空间,通过实例损失和端到端学习的双路径卷积网络来解决图像和文本匹配问题,并在Flickr 30k和MSCOCO上达到了与最先进方法相当的准确度,同时在基于语言的人员检索中取得了很大的改进。
Nov, 2017
我们提出了一种简单而易于解释的推理模型,用于生成全局场景的主要对象和语义概念的可视化表示,该模型使用图卷积网络进行关联和推理,再使用门和记忆机制进行全局语义推理,选取判别信息并逐渐生成整个场景的表示;实验证明我们的方法在MS-COCO和Flickr30K数据集上取得了相对于最佳方法分别为6.8%和4.8%的图像检索和字幕检索的新的最佳效果,Flickr30K数据集上分别提高了12.6%和5.8%的图像检索和字幕检索。
Sep, 2019
文章提出了一种针对图像-文本匹配问题的解决方法,利用一种双通路递归神经网络(DP-RNN)处理对称的输入,通过提取对象顺序信息、对象关系、同时引入自注意力和跨模态联合注意力实现了图片和文本的相似度匹配,实验验证提出的方法在Flickr30K数据集上达到了最先进的性能表现,MS-COCO数据集也表现具有竞争力。
Feb, 2020
通过词区匹配实现图像-句子匹配, 本文提出了一种名为TERAN的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在MS-COCO和Flickr30k数据集上获得了最先进的结果。
Aug, 2020
本研究针对图像和文本匹配问题,提出了一种新颖的基于相似性图推理和注意力过滤的网络模型(SGRAF),通过学习矢量化的相似性表示,利用局部和全局对齐信息进行关系感知相似度计算,并通过注意力机制选择性地整合对齐信息,实现了在Flickr30K和MSCOCO数据集上取得最新的最佳表现。
Jan, 2021
本研究通过将视觉和文本独立地映射到联合嵌入空间中的双编码器方法和使用跨注意力的视觉文本变压器方法来进行大规模图像和视频数据集的基于语言的搜索,并将两种方法相结合,提高了检索准确性并确保了可扩展性,同时还引入了新的细粒度跨注意力架构,并通过蒸馏和重新排序结合了快速双编码器模型和缓慢但准确的变压器模型,并在Flickr30K图像数据集和VATEX视频数据集上验证了该方法。
Mar, 2021
本文提出了一种名为ALADIN的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎90倍的速度下与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
Jul, 2022
本研究通过使用两种Transformer编码器架构来统一图像和文本之间的差异,提出了一种基于层次对齐Transformer的跨模态检索框架,通过多层次的对齐方案,对图像和文本进行了更好的交互和对齐,实验证明该框架优于其他SOTA基线,并在两个基准数据集上实现了显著的提升。
Aug, 2023
图像-文本匹配仍然是一项具有挑战性的任务,由于模态之间异构的语义多样性和三元组内不足的距离可分性。与之前的方法不同,我们旨在通过增强聚类方法中的知识转移来寻求更强大的匹配模型。具体地说,我们提出了一种全新的深度增强学习(DBL)算法,其中锚点分支首先被训练以提供对数据属性的洞察,而目标分支获取更先进的知识以开发出最佳特征和距离度量。通过实验证实,我们的DBL能够在图像-文本匹配领域的各种最新先进模型的基础上取得令人印象深刻且一致的改进,并且优于相关的普遍合作策略,例如常规蒸馏、互联学习和对应学习。此外,我们证实DBL可以无缝集成到它们的训练场景中,并在相同的计算成本下实现卓越性能,从而展示了我们提出的方法的灵活性和广泛适用性。我们的代码可以在此https URL上公开获取。
Apr, 2024
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在一系列基准数据集上表现出显著的性能提升,并且在面对以前未见过的复杂情况时也能保持较高的匹配性能。
Jun, 2024