零字参数开放词汇三维视觉定位的可视化编程
LLM-Grounder 是一种零样本、开放词汇量的基于大型语言模型(LLM)的 3D 视觉定位流水线。通过将复杂自然语言查询拆解为语义元素,并利用可视化定位工具识别 3D 场景中的对象,LLM-Grounder 评估所提议对象之间的空间和常识关系,从而做出最终的定位决策。该方法不需要有标签的培训数据,可应用于新型 3D 场景和任意文本查询,显示出最先进的零样本定位准确性。研究结果表明,LLM 显著提高了定位能力,尤其对于复杂语言查询,在机器人的 3D 视觉语言任务中,LLM-Grounder 是一种有效的方法。
Sep, 2023
我们介绍了一项新的任务,使用带有外观和几何信息的语言描述在单目 RGB 图像中进行 3D 可视定位。具体而言,我们构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标,由 ChatGPT 生成并手动改进。为了促进此任务,我们提出了 Mono3DVG-TR,一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的端到端变压器网络。深度预测器旨在明确学习几何特征。提出了双文本引导适配器,用于改进所参考对象的多尺度视觉和几何特征。基于深度 - 文本 - 视觉堆叠注意力,解码器融合了物体级几何线索和视觉外观成为可学习的查询。Mono3DVG 提供了全面的基准测试和一些有见地的分析。广泛的比较和消融研究结果表明我们的方法明显优于所有基线方法。该数据集和代码将在以下链接公开发布:this https URL。
Dec, 2023
通过现有的图像 - 文本配对模型和纯物体检测数据,我们提出了一种名为 GroundVLP 的简单而有效的零样本方法,该方法结合了 GradCAM 热力图和开放词汇检测器的对象提案,用于捕捉视觉环境并解决视觉定位任务中数据标注不足的挑战,实验结果显示该方法在 RefCOCO/+/g 数据集上超过了现有零样本方法的 28%,并且在 Flickr30k 实体数据集上与一些非 VLP 的有监督模型表现相当甚至更好。
Dec, 2023
本研究的关键词是开放式词汇学习、视觉定位、新概念、语言描述和对象检测。通过引入新颖和具有挑战性的任务,即开放式视觉定位与开放式短语定位,这项研究的目标是在语言描述和新对象的定位之间建立联系。我们提出了一种新的框架来加强对新类别的识别,并增强视觉和语言信息之间的对齐。经过广泛的实验验证,我们的提议框架在开放式视觉定位任务上始终达到了最先进的性能。
Oct, 2023
文本引导的三维视觉定位(T-3DVG)是从复杂的三维场景中定位与语言查询在语义上对应的对象,近年来已经在三维研究领域引起了越来越多的关注。本综述试图全面概述 T-3DVG 的进展,包括基本要素、最新研究进展和未来研究方向,并提供了详细的教程式的管道结构、现有方法的分类和性能评估指标,以及现有方法的潜在限制和未来研究方向。
Jun, 2024
基于大规模视觉 - 语言模型的弱监督学习方法,利用 2D 图像和 3D 点云之间天然存在的对应关系,无需精细标注的边界框注释,通过学习文本 - 3D 对应,实现文本查询与 3D 目标物的关联。实验结果在 ReferIt3D 和 ScanRefer 数据集上表明,3D-VLA 方法实现了与完全监督方法相当甚至更出色的效果。
Dec, 2023
我们介绍了一种开放词汇的 3D 场景图(OVSG),它是一个形式化的框架,用于将各种实体,如物体实例、代理和区域,与自由文本查询进行关联。与传统的基于语义的物体定位方法不同,我们的系统支持上下文感知的实体定位,允许查询,如 ' 在厨房桌子上拿起一个杯子 ' 或' 导航到一个有人坐在上面的沙发 '。与现有的 3D 场景图研究相比,OVSG 支持自由文本输入和开放词汇查询。通过使用 ScanNet 数据集和自采集数据集进行的一系列比较实验证明,我们提出的方法明显超越了以前基于语义的定位技术的性能。此外,我们突出了 OVSG 在真实世界的机器人导航和操作实验中的实际应用。
Sep, 2023
Voxel-informed Language Grounder is a language grounding model that leverages 3D geometric information to improve grounding accuracy on SNARE, achieving SOTA results with a 2.0% absolute improvement.
May, 2022
通过去噪扩散建模的语言引导扩散框架(LG-DVG)提出了一种逐步推理的视觉定位方法,可持续改进查询 - 区域匹配,在跨模态对齐任务中以生成方式解决视觉定位,并在多个数据集上验证其超凡性能。
Aug, 2023
该研究提出了一种新的跨数据集三维视觉定位任务 Cross3DVG,创造了一个大规模的包含 63k 个三维对象多样描述的人工注释数据集,研究表明当前三维视觉定位的跨数据集泛化有很大的提升空间,结合 CLIP 的方法可以提高性能。
May, 2023