CLIP-Loc：面向基于物体的地图的多模式地标关联全局定位

Feb, 2024

CLIP-Loc：面向基于物体的地图的多模式地标关联全局定位

CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps

Shigemichi Matsuzaki, Takuma Sugino, Kazuhito Tanaka, Zijun Sha, Shintaro Nakaoka...

TL;DR通过使用多模态数据关联方法，结合基于对象的地图和相机图像，本文描述了一种全局定位的方法。我们尝试使用 Vision Language Model (VLM)，通过自然语言描述标记地标，并基于图像观察的概念相似性提取对应关系，从而提高了全局定位的准确性和效率。

Abstract

This paper describes a multi-modal data association method for global localization using object-based maps and camera images. In

multi-modal data association global localization object-based maps camera images vision language model

发现论文，激发创造

在线嵌入多尺度 CLIP 特征于 3D 地图中

本研究介绍了一种新的方法，将多尺度的 CLIP (对比性语言 - 图像预训练) 特征在线嵌入到 3D 地图中，通过利用 CLIP，该方法克服了传统的词汇有限方法的限制，并将语义信息融入到生成的地图中，从而高效地计算和嵌入多尺度 CLIP 特征，并且通过将 CLIP 特征嵌入到结果地图中，实现了离线检索和实时对象搜索，进一步提出了一种基于地图方法的零样本对象 - 目标导航系统，并通过对象 - 目标导航、离线对象检索和多对象 - 目标导航在模拟环境和真实机器人实验中验证了其有效性，结果表明，我们的方法不仅在地图生成方面表现出更快的性能，而且在对象 - 目标导航任务的成功率方面也超过了现有的最先进方法。

Mar, 2024

无监督开放词汇视频物体定位

通过在视频中定位对象的插槽注意力方法以及利用预训练的 CLIP 模型实现无监督视频对象定位，我们展示了近期视频表征学习和预训练视觉语言模型的重要进展，取得了显著的提升，并成为首个在常规视频基准数据集上具有良好结果的无监督方法。

Sep, 2023

视觉 - 语言模型的跨模态概念学习和推理

使用大规模预训练的视觉语言模型（如 CLIP）及跨模态概念学习和推理（CCLI）方法，能够通过文本和图像之间的相关性自动学习图像的视觉概念，并构建区分性的图像表示，从而提高少样本学习和领域泛化等图像分类任务的性能。

Jul, 2023

ECOR：面向目标识别的可解释 CLIP

在本研究中，我们通过给对象识别任务中的大视觉语言模型（VLMs）提供可解释性的数理定义（基于类别和原因的联合概率分布），以一种可解释的方式对 CLIP 进行微调，从而在解释性分类方面展现了最先进的性能，尤其在零样本设置下表现出了它的适应性，使解释性的对象识别得到了改善，增强了不同应用中的信任。

Apr, 2024

打通目标与图像级别表示以实现开放词汇检测

本文提出了一种基于 CLIP 模型和图像水平监督的对象中心对齐的方法，运用伪标注实现高质量对象提议并在训练过程中扩展词汇表，通过新的权重传递函数将两种对象对齐策略结合，实现了在 OVD 方案中对象和图像中心表示的最小化差距。在 COCO 数据集上，我们的方法在新颖类别上取得了 36.6 的 AP50 表现，绝对值超过了以前的最佳性能。对于 LVIS，我们在罕见类别上超越了最新的 ViLD 模型达 5.0 的掩膜 AP，总体提高 3.4。

Jul, 2022

LIP-Loc: 跨模态定位的激光雷达图像预训练

利用对比映射预训练（CLIP）方法在图像与 LiDAR 点云的交叉模态本地化任务中，首次应用批处理损失方法并展示了零样本转移，并在 KITTI 数据集上取得了超过当前最先进方法 22.4% 的准确性提升，而且无需复杂的网络架构。

Dec, 2023

CLIM：用于区域表示的对比性语言 - 图像拼贴

通过大规模的图像 - 文本对，借助 CLIM 方法实现区域与文本表示的对齐，改进开放词汇物体检测方法并加强视觉 - 语言模型的区域表示，提供更强实力的骨干，实验结果表明 CLIM 在 OV-COCO 和 OV-LVIS 基准上极大改进不同的基线系统。

Dec, 2023

RegionCLIP: 基于区域的语言 - 图像预训练

RegionCLIP 是一种新的方法，扩展了 CLIP 模型的范围，使其可以学习区域级别的视觉表征，从而实现图像区域和文本概念之间的细粒度对齐，进而在目标检测领域表现出良好的性能。

Dec, 2021

基于图论对应匹配的单次全局定位

提出了一种基于图论关联的全局定位方法，其基于最大团问题的对应匹配，应用语义化标记的点云地图和语义分割图像实现全局定位，表现出了在多个大规模城市场景地图上的优异结果。

Jun, 2023

VOOM: 强健的视觉物体里程计与地图构建方法利用分层地标

使用高级对象和低级点作为分层地标，采用改进的观测模型和新的数据关联方法，并在粗到精的方式下，利用对象信息增强特征点的数据关联并更新地图，最终优化相机位置和对象，实验证明在定位方面优于面向对象的 SLAM 和特征点的 SLAM 系统。

Feb, 2024