场景生成:基于 LLM 的合成 3D 场景的 Blender 代码智能代理
我们通过使用自回归的基于标记的方法直接生成完整场景模型的有序语言命令序列,引入了 SceneScript。我们的场景表示方法受到转换器和 LLMs 的最新成功的启发,并与常见的以网格、体素网格、点云或辐射场描述场景的传统方法不同。我们的方法使用场景语言编码器 - 解码器架构,直接从编码的视觉数据中推断结构化语言命令集。为了训练 SceneScript,我们生成并发布了一个名为 Aria Synthetic Environments 的大规模合成数据集,该数据集由 100,000 个高质量室内场景组成,并具有逼真的和真实标注的以自我为中心的场景漫游渲染。我们的方法在建筑布局估计方面具有最先进的结果,在 3D 物体检测方面具有竞争性的结果。最后,我们探讨了 SceneScript 的优势,即通过简单添加到结构化语言中轻松适应新命令,我们在粗糙的 3D 物体部分重建等任务中进行了说明。
Mar, 2024
介绍了 Scene-LLM,一种增强 3D 室内环境中具有交互能力的具身化智能体的 3D 视觉语言模型,通过整合大型语言模型(LLM)的推理能力。该模型采用混合的 3D 视觉特征表示方法,结合了密集的空间信息并支持场景状态更新。它采用投影层将这些特征高效地投影到预训练的文本嵌入空间中,从而有效解释 3D 视觉信息。我们方法独特之处在于整合了场景级和自我中心的 3D 信息,这对于交互式规划至关重要,其中场景级数据支持全局规划,自我中心数据对于定位非常重要。值得注意的是,我们使用自我中心的 3D 帧特征进行特征对齐,这是一种增强模型对场景中小物体特征对齐能力的高效技术。通过 Scene-LLM 的实验证明了其在密集字幕生成、问题回答和交互规划方面的强大能力。我们相信 Scene-LLM 推进了 3D 视觉理解和推理的领域,在室内环境中为复杂智能体的交互提供了新的可能性。
Mar, 2024
CityCraft 是一种创新框架,结合了三个关键阶段来增强城市场景的多样性和质量,它包括使用扩散变压器模型生成 2D 城市布局,利用大型语言模型根据用户提示和语言指南制定土地利用规划,以及通过资产检索模块和 Blender 进行精确的资产放置和场景构建。CityCraft 在生成逼真的 3D 城市方面取得了最先进的性能。
Jun, 2024
该研究介绍了一种名为 CRAFT 的模型,可以通过视频字幕数据学习空间,视觉和语义世界知识,预测提及实体的时间布局,从视频数据库中检索时空实体帧段并融合它们来生成视频。CRAFT 的关键贡献包括组件的连续训练,合并布局和外观的共同建模,以及鼓励学习检索构成表示的损失。该模型在语义一致性、构成一致性和视觉质量上均表现出色。
Apr, 2018
通过利用 Vision-Language Models(像 GPT-4V)智能地搜索设计动作空间,我们提出了一个系统,以满足用户意图的目标,结合了图像生成模型(image-generation models)的 “想象” 参考图像,为抽象语言描述提供视觉基础。该系统在编辑程序材料和 / 或参考图像,以及在复杂场景中调整产品渲染的照明配置等任务中,能够生成简单但繁琐的 Blender 编辑序列。
Apr, 2024
ChatSim 是第一个通过自然语言指令和外部数字资产实现可编辑的照片级 3D 驾驶场景模拟的系统,它利用大型语言模型 (LLM) 代理协作框架实现了高命令灵活性的编辑,并采用了新颖的多摄像机神经辐射场方法以实现逼真的结果,还借助了新颖的多摄像机光照估计方法以实现场景一致的资产渲染,实验证明 ChatSim 能处理复杂的语言指令并生成相应的逼真场景视频。
Feb, 2024
通过使用场景图生成组成 3D 场景的图形图像扩散预训练模型,利用节点和边的信息,GraphDreamer 能够生成高保真的分解对象实体的组合性 3D 场景。
Nov, 2023
本文介绍了 Chat-3D,它通过将预训练的 3D 表示与先进的 LLM 的推理和对话能力相结合,实现了首个用于 3D 场景的通用对话系统。 Chat-3D 能够感知 3D 世界,具备理解各种 3D 场景指令、进行复杂的空间推理并将外部知识融入其响应的能力。在构建的指令数据集上,Chat-3D 相对于 GPT-4 获得了相对得分 75.6%。
Aug, 2023
ChatScene 使用大型语言模型通过文本指令生成安全关键场景,将其转化为特定代码以实现车辆预测和控制,并验证了其在提高自动驾驶车辆安全性方面的有效性。
May, 2024
通过引入大规模场景生成框架 SceneX,本文提出了一种利用大型语言模型驱动程序化建模的方法,以用户的文本描述为指导,自动生成高质量的程序化模型,从而实现可控的大规模场景生成和编辑。
Mar, 2024