面向快速准确的图像文本检索与自监督细粒度对齐
通过词区匹配实现图像-句子匹配, 本文提出了一种名为TERAN的新方法,在图像和句子的不同组件之间执行精细匹配,从而实现了跨模式检索,并在MS-COCO和Flickr30k数据集上获得了最先进的结果。
Aug, 2020
本文提出了一种新的结构化多模式特征嵌入与对齐模型(SMFEA)来增强图像-句子检索,通过构建视觉和文本片段之间的内在结构和外在交叉模态结构和语义对应关系,使用共享的上下文感知式引用树的新型多模式结构模块联合并显性地学习视觉-文本嵌入和跨模态对齐,将各自模态的片段处理为结构化树编码,通过最大化相应跨模态树节点之间的语义和结构相似性来首次实现了对齐方法的交叉模态结构和语义对应关系.
Aug, 2021
本文提出了一种无监督的图像与自然语言跨模态预训练方法,通过弱对齐的图像-文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过VQA、NLVR2、Visual Entailment、RefCOCO+等下游任务的评估,取得了在无监督设置下的最佳性能。
Mar, 2022
该论文研究了一个生成文本-图像对以提高细粒度图像-文本跨模态检索任务训练的开放性研究问题,并提出了一种新的框架用于成对数据增强,以揭示StyleGAN2模型的隐藏语义信息。
Jul, 2022
本文提出了一种名为ALADIN的图文匹配方法,该方法通过精细的图像文本层次对齐产生高效得分,并通过蒸馏从层次对齐中获得的相关性得分,学习共享的嵌入空间,可在近乎90倍的速度下与最先进的VL Transformer网络相竞争,具有横跨视觉和语言的领先地位。
Jul, 2022
我们提出了一种新的合成图像检索框架,名为双关系对齐,它将显式和隐式关系相结合,充分利用三元组之间的相关性,通过融合参考图像和目标图像设计了一个视觉组合器,显著提升了合成图像检索性能。
Sep, 2023
通过降低非重要图片和文本片段的参与度,提高对重要片段的对齐相似性,本文介绍了一种新的跨模态突出片段增强对齐网络(CPFEAN),该网络通过减少在对齐过程中无关区域的参与度并相对提高对齐的突出词,从而实现改进的检索准确性。与最先进的方法相比,在MS-COCO和Flickr30K数据集上进行了大量定量比较实验,结果显示本方法在rSum度量上的表现超过了现有方法约5%至10%。
Nov, 2023
提出了一种新的度量学习方法——Misalign, Contrast then Distill (MCD),该方法利用图像和文本之间的错位作为额外的训练来源,通过预测增强图像和文本之间的连续错位程度,达到了多个分类和检索数据集中最先进的迁移能力。
Dec, 2023
通过引入交叉模态和单模态软标签对齐(CUSA)方法,我们解决了图像-文本检索中的两个问题:模态间匹配缺失和模态内语义损失。实验证明,我们的方法可以提升图像-文本检索以及单模态检索的性能,达到新的最先进水平。
Mar, 2024