MaGRITTe: 图像、鸟瞰与文本的操控和生成 3D 实现

Mar, 2024

MaGRITTe: 图像、鸟瞰与文本的操控和生成 3D 实现

MaGRITTe: Manipulative and Generative 3D Realization from Image, Topview and Text

Takayuki Hara, Tatsuya Harada

TL;DR使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景，通过预训练的文本到图像模型微调，以及布局条件的深度估计和神经辐射场（NeRF），实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景，避免创建庞大的数据集，得到了定性和定量的实验结果，证明了该方法能够根据多模态条件生成多领域的 3D 场景。

Abstract

The generation of 3d scenes from user-specified conditions offers a promising avenue for alleviating the production burden in 3D applications. Previous studies required significant effort to realize the desired scene, owing to limited control conditions. We propose a method for control

3d scenes multimodal conditions 2d image generation layout information nerf

发现论文，激发创造

多模态条件下的三维感知图像生成和编辑

本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型，通过纯噪声、文本和参考图像等多种条件输入，在 3D 生成对抗网络（GANs）的潜在空间中深入研究并提出解缠特性较好的生成策略，同时采用统一框架进行灵活的图像生成和编辑任务，实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明，该方法在图像生成和编辑方面在质量和数量上均优于替代方法。

Mar, 2024

3D-SceneDreamer: 文本驱动的 3D 一致场景生成

利用文本驱动的 3D 场景生成技术，在构建 3D 场景时通过使用现有的生成模型进行图像变形和修复，同时结合查询和聚合全局 3D 信息来生成高质量的新内容，并在支持多种场景生成和任意相机路径的同时改善视觉效果和 3D 一致性。

Mar, 2024

文本和图像帮助下的 3D 头像创造与操作

该论文介绍了一种基于文本或图像的提示（如 “年轻的脸” 或 “惊讶的脸”）来操纵三维生成模型中形态和纹理的方法，利用了对比语言图像预训练模型（CLIP）和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。

Feb, 2022

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

跨模态三维形状生成与操作

该论文提出了一种通用的多模态生成模型，通过共享潜在空间将 2D 模态和隐式 3D 表示耦合在一起，实现了通过简单地传播来自特定 2D 控制模态的编辑，从而实现了多样化的 3D 生成和操作。

Jul, 2022

多模态条件下的三维人脸几何生成

我们提出了一种新的方法，用于多模态条件下的三维人脸几何生成，可以通过多种不同的条件信号实现对输出身份和表情的用户友好控制。该方法基于扩散过程，在一个二维参数化的 UV 领域中生成三维几何形状，并通过交叉注意层 (IP-Adapter) 将每个调节信号传递给几何生成模型，提供细粒度的用户控制，产生具有高分辨率几何的易于使用的三维人脸生成工具。

Jul, 2024

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

场景条件下的三维物体风格化与组合

通过结合建模和优化对象的纹理和环境光照，本论文提出了一个框架，使得现有的 3D 资源能够适应给定的 2D 场景，同时生成一种真实感的组合效果，使得假定的对象能够放入该环境中。

Dec, 2023

Ctrl-Room: 可控文本到三维房间网格生成与布局约束

Ctrl-Room 通过使用文本提示生成具有设计风格布局和高保真纹理的令人信服的 3D 室内空间，并提供灵活的交互式编辑操作。通过分离布局和外观建模，并使用文本条件扩散模型和控制网络，我们能够轻松地编辑生成的房间模型，而不需要昂贵的编辑特定培训。在 Structured3D 数据集上的实验证明，我们的方法在从自然语言提示生成更合理、视觉一致和可编辑的 3D 房间方面优于现有方法。

Oct, 2023

DreamControl: 基于控制的文本到 3D 生成与 3D 自先

通过 DreamControl 的两阶段 2D-lifting 框架，实现了在 3D 生成中解决几何不一致性的 Janus 问题，并生成出几何一致性和纹理保真度都很高的高质量 3D 内容。

Dec, 2023