LLplace：基于大型语言模型的三维室内场景布局生成与编辑

Jun, 2024

LLplace：基于大型语言模型的三维室内场景布局生成与编辑

LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model

Yixuan Yang, Junru Lu, Zixiang Zhao, Zhen Luo, James J.Q. Yu...

TL;DRLLplace 是一种基于轻量级精细调整的开源 LLM Llama3 的新颖的 3D 室内场景布局设计工具，通过用户输入指定房间类型和所需对象来有效生成和编辑 3D 室内布局，并在提供高质量的 3D 设计解决方案方面优于现有方法。

Abstract

Designing 3d indoor layouts is a crucial task with significant applications in virtual reality, interior design, and →

3d indoor layouts virtual reality interior design automated space planning llplace

发现论文，激发创造

面向语言引导的交互式 3D 生成：LLMs 作为布局解释器与生成反馈

该研究提出了一种基于大型语言模型（LLMs）的 LI3D 系统，它集成了 LLMs 作为 3D 布局解释器到现有的布局生成模型中，使用户能够灵活且交互式地生成 3D 场景并且验证其有效性和性能。

May, 2023

Scene-LLM: 扩展语言模型用于 3D 视觉理解和推理

介绍了 Scene-LLM，一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型，通过整合大型语言模型（LLM）的推理能力。该模型采用混合的 3D 视觉特征表示方法，结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中，从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息，这对于交互式规划至关重要，其中场景级数据支持全局规划，自我中心数据对于定位非常重要。值得注意的是，我们使用自我中心的 3D 帧特征进行特征对齐，这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域，在室内环境中为复杂智能体的交互提供了新的可能性。

Mar, 2024

3D-LLM：将三维世界注入大型语言模型

我们提出了一种新的 3D-LLMs，将 3D 世界引入大型语言模型，并利用 3D point clouds 进行各种 3D 相关任务，通过我们设计的提示机制收集了超过 300k 的 3D 语言数据，实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法，并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。

Jul, 2023

LLMs 跨入 3D 世界：多模态大语言模型对 3D 任务的调查与元分析

大型语言模型（LLMs）与三维空间数据（3D-LLMs）的整合不断进步，为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法，强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势，并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场（NeRFs）等各种 3D 数据表示，分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话，以及基于 LLMs 的空间推理、规划和导航等任务中的应用，同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展，但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此，本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述，我们建立了一个项目页面，其中整理和列出了与我们的主题相关的论文。

May, 2024

利用 LLM 程序合成和未筛选对象数据库进行开放式室内场景生成

通过使用预训练大型语言模型合成程序来描述物体和空间关系，再根据渐进式优化算法对物体的位置和方向进行生成，并从数据库中获取 3D 模型以产生物体几何形状，该系统在室内场景生成任务中胜过基于 3D 数据训练的生成模型及最近的基于大型语言模型的布局生成方法。

Feb, 2024

3D-PreMise: 大型语言模型能否生成具备清晰特征和参数控制的三维形状？

文中介绍了使用大型语言模型（LLMs）通过程序合成操作 3D 软件生成以文本驱动的三维形状的框架，旨在解决精确建模带有参数控制的具有锐利特征的几何图形的挑战，并强调了 LLMs 在工业应用的三维参数建模中的潜力和局限性。

Jan, 2024

基于语言增强的空间本体论的室内外三维场景图生成

该论文提出了一种在任意环境（室内和室外）中构建 3D 场景图的方法。为了解决室内和室外环境的概念层次复杂性和训练数据不足的挑战，提出了构建空间本体和使用逻辑张量网络构建 3D 场景图的两个新扩展。通过使用大型语言模型构建空间本体，从而大大减少手动工作量；并利用逻辑张量网络添加逻辑规则或公理，提供附加的监督信号，减少标记数据的需求，并在训练时允许预测未见过的概念。在多个数据集上测试表明，该方法显著提高了使用稀疏注释数据生成 3D 场景图的质量。

Dec, 2023

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

LL3DA：面向全方位三维理解、推理和规划的视觉交互指令调整

LL3DA 是一种大型语言 3D 助手，可以直接接收点云输入，并对文本指令和视觉提示进行回应，可以帮助大型多模态模型更好地理解人类互动，并在杂乱的 3D 场景中消除歧义。实验证明，LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果，并超越了各种 3D 视觉语言模型。

Nov, 2023

具备大型语言模型的版面生成代理

研究了使用 GPT-4V 多模态大语言模型的基于代理的布局生成系统，通过顺序放置对象在虚拟空间中生成反映用户指令的布局，实验证实该方法能以高成功率生成反映用户指令的虚拟空间，并通过消融研究成功地确定了对行为生成性能改善做出贡献的要素。

May, 2024