深度学习下可控图像合成的调查

Jul, 2023

Survey on Controlable Image Synthesis with Deep Learning

Shixiong Zhang, Jiao Li, Lu Yang

TL;DR通过深度学习技术与生成模型的应用，研究了 3D 可控图像合成问题，包括视角 / 姿势可控图像合成、结构 / 形状可控图像合成以及 3D 重新照明等方面。

Abstract

image synthesis has attracted emerging research interests in academic and industry communities. deep learning technologies especially the generative models greatly inspired controllable →

image synthesis deep learning controllable image synthesis 3d controllable image synthesis generative models

发现论文，激发创造

面向无监督学习的生成模型，用于三维可控图像合成

该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性，并提出了一种无监督的方法，可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比，该方法允许合成与视角或物体姿势变化一致的场景，可用于实现 3D 可控图像合成，生成具有可解释性的表示形式。

Dec, 2019

3D 感知图像合成综述

介绍了近年来深度学习实现的视觉内容创作方法的显著进展，包括 3D 感知生成图像合成，旨在提供一个关于 3D 感知图像合成的综述，为相关领域的研究工作提供有用的参考，并通过我们的讨论部分激发未来的研究方向。

Oct, 2022

深度学习下可控数据生成：一综述

本文系统综述了可控深度数据生成领域，包括挑战、分类、评估指标、应用与研究现状分析，提出未来研究方向和挑战。

Jul, 2022

SynthForge: 利用可控 3D 生成模型合成高质量人脸数据集

建立在真实数据基础上的生成模型能够以可控的方式呈现逼真的数据，但由于缺乏三维一致性注释和生成样本分布受限等问题，使用这些生成模型生成的数据进行下游任务训练仍未得到充分探索。为了解决这些挑战，我们从一个现有的可控生成模型中提取三维一致性注释，使数据在下游任务中发挥作用，实验证明使用仅生成的合成数据可以与最先进的模型竞争，具有解决下游任务的潜力。

Jun, 2024

几何图像合成

本研究提出了一种可训练的、基于几何感知的图像生成方法，利用几何和分割等场景信息生成逼真自然、符合期望的场景结构的图像，并通过 GIS 框架插入驾驶场景中的车辆、生成来自 Linemod 数据集的物体新视角，展示其能够广泛适用于新颖的场景、物体形状和分割，且可用于合成大量训练数据以训练实例分割模型。

Sep, 2018

Scribbler: 用草图和颜色控制深度图像合成

本文提出了一种基于深度对抗图像合成框架，结合草图轮廓和稀疏颜色笔画生成逼真的汽车、卧室或人脸。我们展示了一个基于草图的图像合成系统，允许用户在草图上涂鸦以指示所需对象的首选颜色。该网络是前向的，可以实时看到用户编辑的效果。与最近关于草图到图像合成的研究进行了比较，表明我们的方法可以生成更逼真、更多样和更可控的输出，并且对于灰度图像的用户引导上色也很有效。

Dec, 2016

Control3D：面向可控的文本到 3D 生成

大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破，仅通过给定的文本提示从零开始创作三维内容。然而，现有的文本到三维技术在创作过程中缺乏一项关键能力：根据用户的需求规范（如草图）对合成的三维内容进行交互式控制和塑造。为了解决这个问题，我们首次尝试在条件上添加手绘草图的文本到三维生成，即 Control3D，以增强用户的可控性。具体而言，我们通过改进的 2D 条件扩散模型（ControlNet）来引导作为 NeRF 参数化的三维场景的学习，以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外，我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致，从而实现了更好的可控文本到三维生成。通过广泛的实验证明，我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。

Nov, 2023

DreamControl: 基于控制的文本到 3D 生成与 3D 自先

通过 DreamControl 的两阶段 2D-lifting 框架，实现了在 3D 生成中解决几何不一致性的 Janus 问题，并生成出几何一致性和纹理保真度都很高的高质量 3D 内容。

Dec, 2023

3D 感知条件图像合成

提出了一种名为 pix2pix3D 的 3D 感知条件生成模型，可以进行可控的写实图像合成，并通过神经辐射场扩展了条件生成模型，从而实现了显式的 3D 用户控制，并建立了一个交互系统，允许用户从任意视角编辑标签图，并相应地生成输出。

Feb, 2023

学习可控图像合成的布局和风格可重构 GANs

该论文提出了一种新的范例 (layout-to-mask-to-image) 来实现从给定布局生成物体掩膜的任务，给出了一种通过实例感知和布局感知归一化来实现物体掩膜水平的风格控制，使用生成对抗网络 (GANs) 在两个控制水平上进行风格控制的方法，并在 COCO-Stuff 数据集和 Visual Genome 数据集上获得了最新成果。

Mar, 2020