深度学习下可控图像合成的调查
该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性,并提出了一种无监督的方法,可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比,该方法允许合成与视角或物体姿势变化一致的场景,可用于实现 3D 可控图像合成,生成具有可解释性的表示形式。
Dec, 2019
介绍了近年来深度学习实现的视觉内容创作方法的显著进展,包括 3D 感知生成图像合成,旨在提供一个关于 3D 感知图像合成的综述,为相关领域的研究工作提供有用的参考,并通过我们的讨论部分激发未来的研究方向。
Oct, 2022
建立在真实数据基础上的生成模型能够以可控的方式呈现逼真的数据,但由于缺乏三维一致性注释和生成样本分布受限等问题,使用这些生成模型生成的数据进行下游任务训练仍未得到充分探索。为了解决这些挑战,我们从一个现有的可控生成模型中提取三维一致性注释,使数据在下游任务中发挥作用,实验证明使用仅生成的合成数据可以与最先进的模型竞争,具有解决下游任务的潜力。
Jun, 2024
本研究提出了一种可训练的、基于几何感知的图像生成方法,利用几何和分割等场景信息生成逼真自然、符合期望的场景结构的图像,并通过 GIS 框架插入驾驶场景中的车辆、生成来自 Linemod 数据集的物体新视角,展示其能够广泛适用于新颖的场景、物体形状和分割,且可用于合成大量训练数据以训练实例分割模型。
Sep, 2018
本文提出了一种基于深度对抗图像合成框架,结合草图轮廓和稀疏颜色笔画生成逼真的汽车、卧室或人脸。我们展示了一个基于草图的图像合成系统,允许用户在草图上涂鸦以指示所需对象的首选颜色。该网络是前向的,可以实时看到用户编辑的效果。与最近关于草图到图像合成的研究进行了比较,表明我们的方法可以生成更逼真、更多样和更可控的输出,并且对于灰度图像的用户引导上色也很有效。
Dec, 2016
大规模文本到图像扩散模型的最新进展在文本到三维生成领域取得了重大突破,仅通过给定的文本提示从零开始创作三维内容。然而,现有的文本到三维技术在创作过程中缺乏一项关键能力:根据用户的需求规范(如草图)对合成的三维内容进行交互式控制和塑造。为了解决这个问题,我们首次尝试在条件上添加手绘草图的文本到三维生成,即 Control3D,以增强用户的可控性。具体而言,我们通过改进的 2D 条件扩散模型(ControlNet)来引导作为 NeRF 参数化的三维场景的学习,以使每个三维场景视角与给定的文本提示和手绘草图对齐。此外,我们利用预训练的可微分照片到草图模型直接估计合成三维场景上渲染图像的草图。此类估计的草图以及每个采样视角进一步被强制与给定的草图在几何上保持一致,从而实现了更好的可控文本到三维生成。通过广泛的实验证明,我们的提议可以生成与输入的文本提示和草图紧密对齐的准确忠实的三维场景。
Nov, 2023
通过 DreamControl 的两阶段 2D-lifting 框架,实现了在 3D 生成中解决几何不一致性的 Janus 问题,并生成出几何一致性和纹理保真度都很高的高质量 3D 内容。
Dec, 2023
提出了一种名为 pix2pix3D 的 3D 感知条件生成模型,可以进行可控的写实图像合成,并通过神经辐射场扩展了条件生成模型,从而实现了显式的 3D 用户控制,并建立了一个交互系统,允许用户从任意视角编辑标签图,并相应地生成输出。
Feb, 2023
该论文提出了一种新的范例 (layout-to-mask-to-image) 来实现从给定布局生成物体掩膜的任务,给出了一种通过实例感知和布局感知归一化来实现物体掩膜水平的风格控制,使用生成对抗网络 (GANs) 在两个控制水平上进行风格控制的方法,并在 COCO-Stuff 数据集和 Visual Genome 数据集上获得了最新成果。
Mar, 2020