- CVPR组合对象关系和属性进行图像 - 文本匹配
本研究中,我们通过引入场景图表示图像标题,利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型,能高效地编码物体 - 属性和物体 - 物体的语义关系,通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检 - 图像 - 文本匹配的先进多模态深度学习架构
利用创新的跨模态关注机制和分层特征融合策略,将深度神经网络的高级抽象表示能力与自然语言处理模型的文本语义理解优势相结合,以实现图像和文本之间的深度融合和双向交互的多模态深度学习架构。实验证明,与现有的图像和文本匹配模型相比,优化后的新模型在 - Hire: 多关系增强的图片文字匹配的混合模态交互
我们提出了一种具有多重关系增强的混合模态交互(称为 Hire)的图像文本匹配方法,通过内外模态语义相关性的关联来改善物体和文本的上下文表示,进而获得更好的图像文本匹配结果。
- DEMO:高效的图像文本匹配的统计视角
DEMO 是一种用于高效图像 - 文本匹配的新型哈希方法,通过使用多个扩增视角来刻画每个图像,并通过非参数分布差异度量确保稳健且精准的相似性结构,同时引入协作一致性学习来在 Hamming 空间中保持相似性结构、鼓励不同方向的检索分布的一致 - 深度增强学习:一种全新的图像文本匹配协作方法
图像 - 文本匹配仍然是一项具有挑战性的任务,由于模态之间异构的语义多样性和三元组内不足的距离可分性。与之前的方法不同,我们旨在通过增强聚类方法中的知识转移来寻求更强大的匹配模型。具体地说,我们提出了一种全新的深度增强学习(DBL)算法,其 - CVPRSyncMask:时尚中心化视觉 - 语言预训练的同步注意屏蔽
通过生成准确定位信息在图像和文本中同时出现的图像块和单词标记的掩码,SyncMask 解决了时尚数据集中图像和文本之间信息不匹配的问题,并在时尚数据集中的三个下游任务中表现出优秀的性能。
- 多视角关注的图像文本匹配
提出了一个针对两流图像 - 文本匹配的多视图注意力方法(MVAM),通过多样的注意头学习多个图像和文本表示,并将这些表示连接起来进行匹配,以实现更好的匹配性能和更全面的表示。
- ColorSwap:一个用于多模态评估的颜色和词序数据集
这篇论文介绍了 ColorSwap 数据集,旨在评估和提升多模态模型在物体与其颜色匹配方面的能力。该数据集由 2,000 个独特的图像 - 标题配对组成,分为 1,000 个例子。每个例子包括一个标题 - 图像配对以及一个 “颜色交换” 的 - 图像 - 文本匹配中的样本对语义主动挖掘
提出了一种新的图文匹配模型,叫作主动挖掘样本对语义图文匹配模型 (AMSPS),该模型采用多样化的学习模式使模型更加关注无法处理的负样本,从未注释的项目中主动挖掘更多隐藏的相关语义表示,大大提高了模型的性能和泛化能力。在 Flickr30K - 跨模态主动补充学习与自我完善对应
提出了一种新的 CRCL 框架,通过 ACL 和 SCC 方法提升现有方法的鲁棒性,具有高度准确性和稳定性,从而解决了图像 - 文本匹配中普遍存在的噪声对齐问题。
- 通过利用图文辅助任务提升社交媒体帖子的多模态分类
利用社交媒体帖子中的多模态信息,通过引入辅助损失与主任务相结合的方式,成功解决了文本和图像信息融合中的挑战,取得了一致的改进效果,并通过详细分析揭示了辅助任务在特定场景和案例中的最有效性。
- ViLTA:通过文本增强增强视觉语言预训练
本文提出了一种名为 ViLTA 的新方法,由两个组件组成,旨在进一步促进模型在图像和文本对之间学习细粒度表示,采用交叉蒸馏方法生成软标签以提高模型的稳健性,并利用上下文合成硬负样本来增加图像 - 文本匹配的难度,从而在各种视觉语言任务上取得 - MM消除假阴性提升图像 - 文本匹配
本研究提出了一种新的 False Negative Elimination(FNE)策略,通过采样选择负例来减轻图像 - 文本匹配中的错误负例问题,并在 Flickr30K 和 MS-COCO 上的实验证明了该策略的优越性。
- 走向统一的基于文本的人员检索:一个大规模多属性和语言搜索基准
本文提出了名为 MALS 的大型文本人物检索数据集,探讨了在属性识别和图像文本匹配任务上进行预训练的可行性,并使用 APTM 框架进行验证,取得了 3 个现实世界基准测试的最新检索表现。
- 改进的概率图像文本表示
本文提出了一种改进的概率交叉模态嵌入(PCME ++)方法,用于改进图像文本匹配(ITM)中可能存在的模糊度问题,并通过引入一种新的概率距离与解决方案以及两种优化技术来进一步增强 PCME ++。该研究表明,PCME ++ 相对于最先进的 - 扩散模型是否具备视觉和语言推理能力?
通过引入 DiffusionITM 方法并且使用 Generative-Discriminative Evaluation Benchmark 进行 7 复杂的视觉语言任务的评估,我们发现在 CLEVR 和 Winoground 等组成任务 - 区分性扩散模型作为几个少样本视觉和语言学习器
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数 - RoCOCO:鲁棒性基准 MS-COCO 以测试图像文本匹配模型的鲁棒性
本文提出了一个新的评估基准来测试 ITM 模型的稳健性,加入了各种欺骗性图像和标题来检测模型。结果发现,添加这些图像和标题会降低 SOTA 模型的性能,预计这些结果能提高模型的鲁棒性和引入更多的评估方法。
- CVPR使用文本驱动的软掩膜进行多模态表征学习
提出了一个自我监督学习框架中的视觉语言表示学习方法,引入了一种新的操作、损失和数据增强策略,其中将图像中最相关于对应的标题中某个单词的区域进行软掩蔽以生成多样的图像特征,然后通过多模态编码器计算出每个单词的条件视觉注意力来确定与其相关的区域 - 多模态图像文本匹配改善基于检索的胸部 X 射线报告生成
本论文介绍了一种新的检索型放射学报告生成模块 Contrastive X-Ray REport Match (X-REM),其使用语言 - 图像模型计算匹配分数以衡量胸部 X 射线图像和放射学报告的相似性,从而提高基于检索方法的放射学报告的