基于推理的大型多模态模型的 3D 零件分割
Reason3D 是一种新型的多模态大型语言模型,通过点云数据和文本提示作为输入,生成文本回答和分割遮罩,实现 3D 推理分割、分层搜索、精确引用和问题回答等高级任务。
May, 2024
这篇论文介绍了一种基于零样本推理的 3D 分割新任务,以搜索和定位物体的部件为目标,它超越了先前的类别特定 3D 语义分割、3D 实例分割和开放词汇 3D 分割的限制。我们设计了一个简单的基线方法,Reasoning3D,能够理解和执行复杂的命令,对具有上下文感知和推理答案的 3D 网格进行 (细粒度的) 特定部分分割。该方法利用现成的预训练二维分割网络,由大型语言模型 (LLMs) 支持,在零样本的方式下解释用户的输入查询。我们的方法具有泛化性,能够根据隐含的文本查询有效地定位和突出显示 3D 对象的部分,包括这些组成部分的 3D 对象和真实世界的扫描数据。此外,我们的无训练方法可实现快速部署,并成为未来研究中关于部件级 3D (语义) 对象理解的可行通用基线,在包括机器人学、物体操作、部件装配、自动驾驶应用、增强现实和虚拟现实 (AR/VR) 以及医疗应用等各个领域发挥作用。该论文提供了代码、模型权重、部署指南和评估协议。
May, 2024
该研究提出了一种新的推理分割任务,以激活感知系统中的推理分割能力,并展示了多模态语言模型 LISA 在复杂推理分割和标准引用分割任务中的有效性。
Aug, 2023
通过大型语言模型推理分割来理解人类指令以识别目标对象是感知系统至关重要的。本研究工作深入探究了推理分割,这是一项新颖任务,通过大型语言模型推理来解释和识别隐含的用户意图,从而对应地进行分割。我们提出了一个名为 LLM-Seg 的新框架,有效地将当前的基础分割模型和 LLM 连接起来,通过掩码提案选择实现。同时,我们通过自动数据生成流程构建了一个新的推理分割数据集 LLM-Seg40K。实验证明,我们的 LLM-Seg 表现出与现有方法相比具有竞争力的性能。此外,我们提出的流程可以高效地生成高质量的推理分割数据集。通过这个流程开发的 LLM-Seg40K 数据集可用于训练和评估各种推理分割方法的新基准。
Apr, 2024
提出了一种新的任务称为 3D 推理定位,并引入了一个名为 ScanReason 的新基准,该基准提供了来自五种推理类型的超过 10K 个问题 - 答案 - 位置对,需要推理与定位的相互作用,进一步设计了我们的 ReGround3D 方法,由视觉中心推理模块与多模式大型语言模型(MLLM)驱动的 3D 定位模块组成,通过回顾增强几何和细节从 3D 场景中获得准确的对象位置,并提出了一种推理和定位步骤相互交错的推理链机制来进一步提高性能,在所提出的基准上进行了广泛的实验证实了我们提出的方法的有效性。
Jul, 2024
该研究通过 LLM-TPC 框架,利用大型语言模型,解决了 3D 环境中基于自我的观察进行问题回答的挑战,该方法在 SQA3D 基准测试上表现出了有效性、可解释性和鲁棒性。
Apr, 2024
本研究利用预训练的 CLIP 和 DINO 模型的多模式知识和物体推理能力来解决三维开放式词汇分割的挑战。通过优化神经辐射场 (NeRF) 并引入相应的损失函数,本研究在无需进行微调的情况下,以开放式视觉和文本知识为先验知识,从 2D 特征中提取出 3D 分割特征。通过实验验证,本研究所提出的方法在无需分割注释的情况下,甚至优于完全监督的分割模型训练,表明三维开放式词汇分割可以有效地从 2D 图像和文本图像对中学到。
May, 2023
本研究探讨了物体分割的任务,通过使用语义分割系统和限制玻尔兹曼机的有益信息,结合 Dense CRF 标签,采用判别式方法提高了语义部分分割的性能,并在 PASCAL 数据集上展示了优越的性能。
May, 2015
本文提出了一个新的大规模 3D 多视图视觉问答基准(3DMV-VQA),介绍了一种基于神经场,2D 预训练的视觉语言模型和神经推理运算符的 3D 概念学习与推理(3D-CLR)框架,并评估了各种最先进的模型,发现它们都表现不佳,提出了从多视图图像中推断出世界的紧凑 3D 表示,并在此基础上执行推理的原则方法,对挑战进行了深入分析并指出了潜在的未来方向。
Mar, 2023
通过引入 2D 模型的特性,我们提出了 Segment3D 方法,用于生成高质量的 3D 场景分割掩码,从而实现对于细粒度掩码的改进,并且能够轻松添加新的训练数据以进一步提升分割性能,而无需手动标注训练标签。
Dec, 2023