神经资产：具有 3D 感知多目标场景合成的图像扩散模型

Jun, 2024

神经资产：具有 3D 感知多目标场景合成的图像扩散模型

Neural Assets: 3D-Aware Multi-Object Scene Synthesis with Image Diffusion Models

Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew A. Hudson, Igor Gilitschenski...

TL;DR通过使用神经资产（Neural Assets）控制场景中各个对象的三维姿势，我们提出了一种解决图像扩散模型中多对象三维姿势控制问题的方法，通过将目标帧的对象姿势作为条件编码到参考图像的对象视觉表示中，实现了外观与姿势特征的分离，并结合现有模型的文本到图像架构，使得我们的方法能够对场景中的每个对象进行精细的三维姿势和放置控制，通过在预训练的文本到图像扩散模型中微调这些信息，我们的模型在合成三维场景数据集和两个真实世界视频数据集（Objectron, Waymo Open）上实现了最新的多对象编辑结果。

Abstract

We address the problem of multi-object 3d pose control in image diffusion models. Instead of conditioning on a sequence of text tokens, we propose to use a set of per-object representations, neural assets, to con

multi-object 3d pose control neural assets disentangled appearance text-to-image architecture multi-object editing

发现论文，激发创造

ComboVerse: 空间感知扩散指导下的构成性 3D 资产创建

ComboVerse 是一个 3D 生成框架，通过学习结合多个模型来生成具有复杂构成的高质量 3D 模型，对于生成组合型的 3D 模型比现有方法取得了明显的改进。

Mar, 2024

3D 控制合成运动人物

利用扩散模型为给定目标 3D 动作序列中的人物从单个图像创建动画的框架，包括学习关于人体和服装不可见部分的先验知识以及呈现适当的身体姿势和纹理的新姿态。

Jan, 2024

可塑扩散：单图像化身创造的三维一致扩散

本研究工作旨在通过将 3D 可变模型整合到最新的多视角一致性扩散方法中，增强生成扩散模型在创建可控、照片般逼真的人类头像任务中的质量和功能。我们的实验证明了在基于关节的 3D 模型的准确约束下，生成流水线模型在单图像的新视角合成任务上的性能改进，更重要的是，这种整合实现了面部表情和身体姿势控制在生成过程中的无缝和准确融入。据我们所知，我们提出的框架是第一个允许从未见过的单一图像创建完全 3D 一致、可动画和照片般逼真的人类头像的扩散模型；广泛的定量和定性评估证明了我们的方法在新视角和新表情合成任务上相对于现有最先进的头像创建模型的优势。

Jan, 2024

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

将 3D 几何控制添加到扩散模型中

本篇论文提出了一种利用 3D geometry control 和 visual prompts 的扩展 diffusion models 生成图像的方法，可应用于计算机视觉任务并经过多个数据集的多次实验验证其效果。

Jun, 2023

Zero123-6D：RGB 类别级别 6D 姿态估计的零样本新视角合成

通过将 Diffusion 模型与特征提取技术相结合，本文提出了 Zero123-6D 方法，并在 CO3D 数据集上进行了实验，展示了在类别级别上通过扩展稀疏的纯 RGB 参考视图来提高零侧位姿估计性能、减少数据需求以及消除对深度信息的需求。

Mar, 2024

扩散模型是几何评论者：使用预训练的扩散先验进行单图像三维编辑

提出一种新颖的图像编辑技术，可以在单幅图像上进行三维操作，如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型，实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑，突破了单幅图像三维感知编辑的可能性的局限。

Mar, 2024

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

使用 3D 感知扩散模型实现生成新视图综合

使用基于扩散的模型，结合现有的二维扩散骨架和三维特征体，进行三维感知的图像生成，同时具备自回归生成 3D 一致的序列能力。在合成渲染图像和实际物体上展示了最先进的效果。

Apr, 2023

DORSal: 基于扩散的场景对象中心表征

本文通过引入扩散模型，提出了一种基于对象中心槽的 3D 场景生成框架 DORSal，具有良好的渲染效果和对象级别的场景编辑功能。

Jun, 2023