LLplace:基于大型语言模型的三维室内场景布局生成与编辑
该研究提出了一种基于大型语言模型(LLMs)的 LI3D 系统,它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中,使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。
May, 2023
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
通过使用预训练大型语言模型合成程序来描述物体和空间关系,再根据渐进式优化算法对物体的位置和方向进行生成,并从数据库中获取 3D 模型以产生物体几何形状,该系统在室内场景生成任务中胜过基于 3D 数据训练的生成模型及最近的基于大型语言模型的布局生成方法。
Feb, 2024
文中介绍了使用大型语言模型(LLMs)通过程序合成操作 3D 软件生成以文本驱动的三维形状的框架,旨在解决精确建模带有参数控制的具有锐利特征的几何图形的挑战,并强调了 LLMs 在工业应用的三维参数建模中的潜力和局限性。
Jan, 2024
该论文提出了一种在任意环境(室内和室外)中构建 3D 场景图的方法。为了解决室内和室外环境的概念层次复杂性和训练数据不足的挑战,提出了构建空间本体和使用逻辑张量网络构建 3D 场景图的两个新扩展。通过使用大型语言模型构建空间本体,从而大大减少手动工作量;并利用逻辑张量网络添加逻辑规则或公理,提供附加的监督信号,减少标记数据的需求,并在训练时允许预测未见过的概念。在多个数据集上测试表明,该方法显著提高了使用稀疏注释数据生成 3D 场景图的质量。
Dec, 2023
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。
Nov, 2023
研究了使用 GPT-4V 多模态大语言模型的基于代理的布局生成系统,通过顺序放置对象在虚拟空间中生成反映用户指令的布局,实验证实该方法能以高成功率生成反映用户指令的虚拟空间,并通过消融研究成功地确定了对行为生成性能改善做出贡献的要素。
May, 2024