LIP-Loc: 跨模态定位的激光雷达图像预训练
我们介绍了一种新的图像预训练模型 Llip,它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力,并通过条件化输入信息来生成更丰富的视觉表示,相较于 CLIP 等基线模型,在多项任务上都有更好的性能表现,包括零样本分类和零样本检索。
Apr, 2024
通过鲁棒的微调与跨模态对齐,本研究提出了一种方法,旨在将 RS(Remote Sensing)图像模态与 CLIP 的视觉和文本模态对齐,从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。
Feb, 2024
通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。
Apr, 2024
通过引入频率转换和标记级别对齐的方法,提出了多视角语言 - 图像预训练(MLIP)来解决 CLIP 在数据利用效率方面的挑战,并通过标记合并方法来加快 CLIP 的速度。
Jun, 2024
本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法,通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略,直接学习可迁移的三维点云表示,并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。
Mar, 2023
该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法,它可以用于构建跨语言图像检索模型和改进文本嵌入聚类,并在多语言环境下进行评估。
Nov, 2020
通过使用 Cross-MoST 优化框架,结合 CLIP 等 2D 视觉语言模型,可以提高无需标签的零样本 3D 视觉模型的分类性能,并且实现图像和点云模态之间的跨模态知识交流。
Apr, 2024
通过对网络规模的图像文本数据进行弱监督预训练,本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法,在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明,该方法在各种视觉任务中具有高质量的表征。
Apr, 2024
本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法,Data efficient CLIP (DeCLIP),通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征,在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率,并在转化到下游任务时优于常规 CLIP 模型。
Oct, 2021
本篇论文提出了一种新的方法 SoftCLIP,它通过引入软化的目标来实现交叉模态对齐,并利用模内的自相似性指导实现许多对许多的关系,从而解决了高质量图像 - 文本配对数据的获取问题,成果表现良好。
Mar, 2023