视觉语言预训练模型在监督跨模态检索中的全面经验研究
通过跨模态引导和模态置信度集成,X-MoRe 方法利用 CLIP 的跨模态表示能力,从外部图文对数据集中检索相关的文本信息,并通过赋予可靠性更高的模态对最终预测产生贡献,从而在多样化的任务中展示了稳健的性能,充分发挥了 CLIP 的零样本分类能力。
Aug, 2023
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
跨语言跨模态检索致力于在不使用任何标注的视觉 - 目标语言数据对的情况下实现视觉和目标语言之间的对齐。本研究提出了一种名为 CL2CM 的通用框架,使用跨语言转移改善了视觉和目标语言之间的对齐,可在跨模态网络中为可靠全面的语义对应(知识)提供优势,并通过在多语言图像 - 文本数据集和视频 - 文本数据集上进行实验验证了其高潜力和有效性。
Dec, 2023
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本研究提出了 CLIP4Clip 模型,将 CLIP 模型的知识以端到端的方式迁移到视频 - 文本检索上,从多个角度对其表现进行实验证明其在各种数据集上比其他模型表现更好,同时释放其代码供学术界使用。
Apr, 2021
本篇研究探讨使用 transformer 模型进行多模态对比预训练的方法,发现优于原始的 CLIP 方法,并且支持参数量的降低,通过共享参数,实现了不同模态之间的信息交互和相近语义结构的转移。
Jul, 2022
使用大规模预训练的视觉语言模型(如 CLIP)及跨模态概念学习和推理(CCLI)方法,能够通过文本和图像之间的相关性自动学习图像的视觉概念,并构建区分性的图像表示,从而提高少样本学习和领域泛化等图像分类任务的性能。
Jul, 2023
通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索,本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。
Dec, 2023
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
本研究介绍了一种名为 Cross-View Language Modeling 的语言模型预训练框架,通过共享架构和目标统一交叉语言交叉模态预训练。我们的方法将多模态数据(即图像字幕对)和多语言数据(即平行句子对)作为同一对象的两个不同视角,通过条件掩蔽语言建模和对比学习对两个视角进行对齐。在多语言多模态基准 IGLUE 和两个多语言图像文本检索数据集上的实证结果表明,CCLM 显着优于先前的最新技术,在绝对平均改进方面超过 10%,是第一个在零 - shot 跨语言传输下超越代表性的英语视觉语言模型的多语言多模态模型。
Jun, 2022