面向语言引导的交互式 3D 生成:LLMs 作为布局解释器与生成反馈
LLplace 是一种基于轻量级精细调整的开源 LLM Llama3 的新颖的 3D 室内场景布局设计工具,通过用户输入指定房间类型和所需对象来有效生成和编辑 3D 室内布局,并在提供高质量的 3D 设计解决方案方面优于现有方法。
Jun, 2024
我们提出了一种新的 3D-LLMs,将 3D 世界引入大型语言模型,并利用 3D point clouds 进行各种 3D 相关任务,通过我们设计的提示机制收集了超过 300k 的 3D 语言数据,实验证明我们的模型在 ScanQA 上的表现超过了最先进的基准方法,并在 3D 字幕、任务组合和 3D 辅助对话方面优于 2D VLMs。
Jul, 2023
大型语言模型(LLMs)与三维空间数据(3D-LLMs)的整合不断进步,为理解和与物理空间互动提供了前所未有的能力。本文综述了使 LLMs 能够处理、理解和生成 3D 数据的方法,强调了其在上下文学习、逐步推理、开放词汇能力和广泛的世界知识等独特优势,并强调了它们在体现人工智能系统中显著促进空间理解和互动方面的潜力。我们的研究涵盖了从点云到神经辐射场(NeRFs)等各种 3D 数据表示,分析了它们与 LLMs 的整合在 3D 场景理解、字幕生成、问答和对话,以及基于 LLMs 的空间推理、规划和导航等任务中的应用,同时还对整合 3D 和语言的其他方法进行了简要回顾。本文的元分析显示取得了显著进展,但也强调了利用 3D-LLMs 的全部潜力需要创新方法的必要性。因此,本文旨在为未来的研究规划一个探索和扩展 3D-LLMs 在理解和与复杂 3D 世界互动方面能力的道路。为了支持这项综述,我们建立了一个项目页面,其中整理和列出了与我们的主题相关的论文。
May, 2024
LL3DA 是一种大型语言 3D 助手,可以直接接收点云输入,并对文本指令和视觉提示进行回应,可以帮助大型多模态模型更好地理解人类互动,并在杂乱的 3D 场景中消除歧义。实验证明,LL3DA 在 3D 密集字幕和 3D 问答方面取得了显著成果,并超越了各种 3D 视觉语言模型。
Nov, 2023
通过提出一个框架,使用户能够无缝地探索、评估和综合多种响应,并通过 Luminate 互动系统与 8 名专业作家的用户研究展示了这个框架的可行性和有用性,我们推进了与大型语言模型的创造性任务互动的方式,引入了一种利用大型语言模型的创造潜力的方法。
Oct, 2023
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
最近大型语言模型的进展激发了研究人员和行业专业人员的兴趣,特别是在与移动用户界面相关的任务中的应用。本研究探讨了使用大型语言模型进行用户界面布局生成的方法,并引入了 UI 语法的概念,以更有效地指导生成能力,并提高过程的可解释性和可控性。通过与 GPT-4 进行的初步实验表明,大型语言模型通过上下文学习具有产生高质量用户界面的有希望的能力。此外,我们的初步比较研究显示了基于语法的方法在改善特定方面的生成结果质量方面的潜力。
Oct, 2023
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
文中介绍了使用大型语言模型(LLMs)通过程序合成操作 3D 软件生成以文本驱动的三维形状的框架,旨在解决精确建模带有参数控制的具有锐利特征的几何图形的挑战,并强调了 LLMs 在工业应用的三维参数建模中的潜力和局限性。
Jan, 2024
研究论文通过设计 DocLLM 模型,结合文本语义和空间布局,以有效地理解企业文件的丰富语义,摆脱昂贵的图像编码器,侧重于使用边界框信息来处理不规则布局和异构内容的视觉文件,通过预训练和微调,优于当前最优模型在多个任务中的性能,并且对于先前未见过的数据集具有较好的泛化能力。
Dec, 2023