LocLLM: 大型语言模型通过人体关键点定位实现通用化

Jun, 2024

LocLLM: 大型语言模型通过人体关键点定位实现通用化

LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model

Dongkai Wang, Shiyu Xuan, Shiliang Zhang

TL;DR通过使用文本描述中的关键点线索，借助LocLLM，将大规模语言模型（LLM）与图像和文本指令作为输入，输出所需的关键点坐标，有效扩展了现有的关键点定位模型的能力。

Abstract

The capacity of existing human keypoint localization models is limited by keypoint priors provided by the training data. To alleviate this restriction and pursue more general model, this work studies keypoint localizati

发现论文，激发创造

基于人体关键点的视角估计引导方法

提出Click-Here CNN以整合语义目标关键点信息加权影响图像特征，结合全局图像特征提高模型准确率，实验结果在PASCAL 3D+数据集上表现出优异性能。

Mar, 2017

Text2Pos: 文本和点云跨模态定位

本文提出了一种名为Text2Pos的模块，可以通过文本描述来定位物件位置，可为以后基于自然语言的导航奠定基础。

Mar, 2022

Few-shot几何感知关键点定位

本文提出了一种基于Few-shot learning的填充关键点标注鲁棒性方法，通过少数的半监督数据和大量的自监督数据，在各种不同的物体类别中实现了语义一致的关键点定位和更准确的3D几何重建局部特征的二维定位。

Mar, 2023

PointLLM：赋予大型语言模型理解点云的能力

PointLLM是一个基于大型语言模型的初步努力，旨在填补LLMs在3D理解领域的不足，通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握；采用两阶段的训练策略，先进行潜空间对齐再进行语言调优，从而构建了一个评估点云感知能力和通用性能力的基准，实验结果表明PointLLM在现有的2D基线上展现出更好的表现。

Aug, 2023

Griffon：利用大型语言模型明示任何粒度下的所有对象位置

基于大规模视觉语言模型的对象感知与定位能力，我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于LVLM的基准模型Griffon，该模型在细粒度的RefCOCO系列上达到了最先进的性能，并接近于专家模型Faster RCNN在检测基准MSCOCO上的能力。

Nov, 2023

Text2Loc：3D点云定位的自然语言描述方法

我们提出了一种新型的神经网络Text2Loc，通过几个自然语言描述实现了基于3D点云定位，并完全解释了点与文本之间的语义关系，实现了粗-细定位的本地化过程，文本子图全局位置识别中，用分层Transformer和最大池化捕获了每个文本提示之间的关系动态，而使用文本子图对比学习保持了正负样本之间的平衡；此外，我们还提出了一种新颖的无匹配精细定位方法，进一步提升了位置预测的准确性，摆脱了复杂的文本实例匹配需求，并且比之前的方法更轻量化、更快速、更准确。大量实验证明，Text2Loc在KITTI360Pose数据集上超过了当前最先进技术，定位准确度提升了2倍。我们将公开提供代码。

Nov, 2023

CLIP-Loc：面向基于物体的地图的多模式地标关联全局定位

通过使用多模态数据关联方法，结合基于对象的地图和相机图像，本文描述了一种全局定位的方法。我们尝试使用 Vision Language Model (VLM)，通过自然语言描述标记地标，并基于图像观察的概念相似性提取对应关系，从而提高了全局定位的准确性和效率。

Feb, 2024

LITA：语言教导的时域定位助手

提出了Language Instructed Temporal-Localization Assistant (LITA)方法，通过引入时间标记、SlowFast标记和强调时序本地化数据，改进了多模态大型语言模型的时序本地化能力，并在Reasoning Temporal Localization (RTL)任务和ActivityNet-RTL数据集中取得了显著的性能提升。

Mar, 2024

无实例文本到点云定位与相对位置感知

提出了一种新的模型来解决现有方法的两个主要限制：依赖于地面实例作为输入以及忽视可能实例之间的相对位置，通过文本到点云的跨模态本地化任务，能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明，该模型在KITTI360Pose数据集上与最先进的模型相比具有竞争力的性能，同时也不需要使用地面实例作为输入。

Apr, 2024

GeoReasoner：使用大型视觉语言模型的街景推理地理定位

使用具有人类推理知识的大型视觉语言模型（LVLM）的新范式来解决地理定位问题。该模型通过使用基于CLIP的网络来评估街景图像的可定位程度，并整合来自真实地理定位游戏的外部知识，训练出了一种名为GeoReasoner的模型，优于其他LVLM模型25%以上以及StreetCLIP模型，并且需要更少的训练资源。

Jun, 2024