LIP-Loc: 跨模态定位的激光雷达图像预训练

Dec, 2023

LIP-Loc: 跨模态定位的激光雷达图像预训练

LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization

Sai Shubodh Puligilla, Mohammad Omama, Husain Zaidi, Udit Singh Parihar, Madhava Krishna

TL;DR利用对比映射预训练（CLIP）方法在图像与 LiDAR 点云的交叉模态本地化任务中，首次应用批处理损失方法并展示了零样本转移，并在 KITTI 数据集上取得了超过当前最先进方法 22.4% 的准确性提升，而且无需复杂的网络架构。

Abstract

global visual localization in lidar-maps, crucial for autonomous driving applications, remains largely unexplored due to the challenging issue of bridging the →

global visual localization lidar-maps cross-modal heterogeneity gap multi-modal learning cross-modal localization

发现论文，激发创造

对比视觉语言预训练中的标题多样性建模

我们介绍了一种新的图像预训练模型 Llip，它通过模拟可能与图像匹配的多样的标题来提升图像的描述能力，并通过条件化输入信息来生成更丰富的视觉表示，相较于 CLIP 等基线模型，在多项任务上都有更好的性能表现，包括零样本分类和零样本检索。

Apr, 2024

注意模态差异：通过交叉模态对齐实现遥感视觉语言模型

通过鲁棒的微调与跨模态对齐，本研究提出了一种方法，旨在将 RS（Remote Sensing）图像模态与 CLIP 的视觉和文本模态对齐，从而在 RS 图像分类和跨模态检索任务中获得显著的性能提升。

Feb, 2024

RankCLIP: 语言 - 图像一致的排序预训练

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

Apr, 2024

MLIP: 高效多角度语言图像预训练与全面数据利用

通过引入频率转换和标记级别对齐的方法，提出了多视角语言 - 图像预训练（MLIP）来解决 CLIP 在数据利用效率方面的挑战，并通过标记合并方法来加快 CLIP 的速度。

Jun, 2024

CLIP$^2$: 来自现实世界点云数据的对比语言 - 图像 - 点预训练

本文提出 Contrastive Language-Image-Point Cloud Pretraining (CLIP2) 方法，通过建立二三维场景对齐的实例文本 - 图像 - 点云代理和交叉模态对比学习策略，直接学习可迁移的三维点云表示，并在室内和室外场景中实验验证了其在零样本和少样本三维识别任务中的显著性能提升。

Mar, 2023

零样本跨语言图像检索

该论文介绍了一种使用跨语言预训练进行零 - shot 学习的多模式语言和视觉问题解决方法，它可以用于构建跨语言图像检索模型和改进文本嵌入聚类，并在多语言环境下进行评估。

Nov, 2020

跨模态自训练：无需标签的图像与点云对齐学习分类

通过使用 Cross-MoST 优化框架，结合 CLIP 等 2D 视觉语言模型，可以提高无需标签的零样本 3D 视觉模型的分类性能，并且实现图像和点云模态之间的跨模态知识交流。

Apr, 2024

CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

通过对网络规模的图像文本数据进行弱监督预训练，本论文提出了一种消除对比损失中成对图像和文本相似性计算的需要的方法，在训练速度上取得了显著的 2.7 倍加速。通过广泛的实验证明，该方法在各种视觉任务中具有高质量的表征。

Apr, 2024

无处不在的监管：一种数据高效的对比语言图像预训练范式

本文提出一种用于 Contrastive Language-Image Pre-training (CLIP) 的新的训练方法，Data efficient CLIP (DeCLIP)，通过充分利用图像 - 文本对之间的广泛监督来更有效地学习通用视觉特征，在使用较少数据的情况下实现 60.4% 的零样本 top1 准确率，并在转化到下游任务时优于常规 CLIP 模型。

Oct, 2021

SoftCLIP: 更柔和的跨模态对齐增强了 CLIP

本篇论文提出了一种新的方法 SoftCLIP，它通过引入软化的目标来实现交叉模态对齐，并利用模内的自相似性指导实现许多对许多的关系，从而解决了高质量图像 - 文本配对数据的获取问题，成果表现良好。

Mar, 2023