LocLLM: 大型语言模型通过人体关键点定位实现通用化
提出Click-Here CNN以整合语义目标关键点信息加权影响图像特征,结合全局图像特征提高模型准确率,实验结果在PASCAL 3D+数据集上表现出优异性能。
Mar, 2017
本文提出了一种基于Few-shot learning的填充关键点标注鲁棒性方法,通过少数的半监督数据和大量的自监督数据,在各种不同的物体类别中实现了语义一致的关键点定位和更准确的3D几何重建局部特征的二维定位。
Mar, 2023
PointLLM是一个基于大型语言模型的初步努力,旨在填补LLMs在3D理解领域的不足,通过处理彩色对象点云并生成合适的回应展示其对点云和常识的掌握;采用两阶段的训练策略,先进行潜空间对齐再进行语言调优,从而构建了一个评估点云感知能力和通用性能力的基准,实验结果表明PointLLM在现有的2D基线上展现出更好的表现。
Aug, 2023
基于大规模视觉语言模型的对象感知与定位能力,我们引入一个新颖的语言提示定位数据集并提出了一种纯粹基于LVLM的基准模型Griffon,该模型在细粒度的RefCOCO系列上达到了最先进的性能,并接近于专家模型Faster RCNN在检测基准MSCOCO上的能力。
Nov, 2023
我们提出了一种新型的神经网络Text2Loc,通过几个自然语言描述实现了基于3D点云定位,并完全解释了点与文本之间的语义关系,实现了粗-细定位的本地化过程,文本子图全局位置识别中,用分层Transformer和最大池化捕获了每个文本提示之间的关系动态,而使用文本子图对比学习保持了正负样本之间的平衡;此外,我们还提出了一种新颖的无匹配精细定位方法,进一步提升了位置预测的准确性,摆脱了复杂的文本实例匹配需求,并且比之前的方法更轻量化、更快速、更准确。大量实验证明,Text2Loc在KITTI360Pose数据集上超过了当前最先进技术,定位准确度提升了2倍。我们将公开提供代码。
Nov, 2023
通过使用多模态数据关联方法,结合基于对象的地图和相机图像,本文描述了一种全局定位的方法。我们尝试使用 Vision Language Model (VLM),通过自然语言描述标记地标,并基于图像观察的概念相似性提取对应关系,从而提高了全局定位的准确性和效率。
Feb, 2024
提出了Language Instructed Temporal-Localization Assistant (LITA)方法,通过引入时间标记、SlowFast标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在Reasoning Temporal Localization (RTL)任务和ActivityNet-RTL数据集中取得了显著的性能提升。
Mar, 2024
提出了一种新的模型来解决现有方法的两个主要限制:依赖于地面实例作为输入以及忽视可能实例之间的相对位置,通过文本到点云的跨模态本地化任务,能够在一个城市规模的点云场景中根据少量自然语言指令来定位一个位置。实验结果表明,该模型在KITTI360Pose数据集上与最先进的模型相比具有竞争力的性能,同时也不需要使用地面实例作为输入。
Apr, 2024
使用具有人类推理知识的大型视觉语言模型(LVLM)的新范式来解决地理定位问题。该模型通过使用基于CLIP的网络来评估街景图像的可定位程度,并整合来自真实地理定位游戏的外部知识,训练出了一种名为GeoReasoner的模型,优于其他LVLM模型25%以上以及StreetCLIP模型,并且需要更少的训练资源。
Jun, 2024