RemoteCLIP: 远程感知的视觉语言基础模型
提出了一种半监督学习方法 S-CLIP,利用额外的非配对图像数据为基于对比学习的语言图像预训练模型 CLIP 训练,采用两个伪标签策略,分别针对对比学习和语言模态,能够显著增强 CLIP 的训练,取得了在遥感、时尚、科学图像和漫画等多个领域中的令人瞩目的表现。
May, 2023
我们提出了一种基于视觉语言模型训练遥感图像的方法,无需使用任何文本注释。我们的关键洞察力是使用地面上的互联网图像作为遥感图像和语言之间的中介。通过使用大量的配对互联网和卫星图像,我们训练了遥感图像的图像编码器与 CLIP 的图像编码器对齐。我们的无监督方法使得能够训练一种新型的大规模遥感图像视觉语言模型 (VLM),适用于两种不同分辨率的遥感图像。我们展示了这些 VLM 在卫星图像的零样本、开放词汇的图像分类、检索、分割和视觉问答任务中的能力。我们的无需文本注释的 VLM 在这些任务的每个方面都优于现有有监督训练的 VLM,分类任务上最高提升了 20%,分割任务上提升了 80%。
Dec, 2023
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
通过鲁棒的微调与跨模态对齐,本研究提出了一种方法,旨在将 RS(Remote Sensing)图像模态与 CLIP 的视觉和文本模态对齐,从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。
Feb, 2024
利用对比语言 - 视觉模型 CLIP,我们可以实现无需人工注释或额外训练的短语定位方法,其零样本短语定位性能优于现有无训练方法,并在某些情况下甚至超过了有监督的方法。
Apr, 2022
我们提出了 C-SAW,这是一个在视觉空间中加入自监督损失和强调视觉领域和内容特定特征的新型提示学习技术,以确保领域不变的提示学习,并增强视觉特征的表达能力。C-SAW 在多个遥感基准测试和不同的泛化任务中展现了超越性能。
Nov, 2023
RegionCLIP 是一种新的方法,扩展了 CLIP 模型的范围,使其可以学习区域级别的视觉表征,从而实现图像区域和文本概念之间的细粒度对齐,进而在目标检测领域表现出良好的性能。
Dec, 2021
CLIP 模型是基于文本查询的图像检索的重要进展,通过在大规模数据集上进行训练获得显著的泛化能力,实现了图像和文本的跨模态理解,促进了自然语言理解和计算机视觉的无缝集成,为多媒体应用中的信息检索提供了强大的工具。
Jan, 2024
本文介绍了一种基于大规模预训练模型 CLIP 的零 - shot 基线模型 ReCLIP,包含提取物体区域和处理空间关系两个组成部分,实验结果表明相较于其他基线模型, ReCLIP 在指代理解任务上对真实图像的效果提升了 8%。
Apr, 2022
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024