多模态条件下的三维感知图像生成和编辑

Mar, 2024

多模态条件下的三维感知图像生成和编辑

3D-aware Image Generation and Editing with Multi-modal Conditions

Bo Li, Yi-ke Li, Zhi-fen He, Bin Liu, Yun-Kun Lai

TL;DR本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型，通过纯噪声、文本和参考图像等多种条件输入，在 3D 生成对抗网络（GANs）的潜在空间中深入研究并提出解缠特性较好的生成策略，同时采用统一框架进行灵活的图像生成和编辑任务，实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明，该方法在图像生成和编辑方面在质量和数量上均优于替代方法。

Abstract

3d-consistent image generation from a single 2D semantic label is an important and challenging research topic in computer graphics and computer vision. Although some related works have made great progress in this

3d-consistent image generation computer graphics computer vision disentanglement performance multi-modal control

发现论文，激发创造

AvatarMMC: 三维头像生成和编辑，多模态条件下

我们介绍了一种基于 3D 生成对抗网络（GAN）和潜在扩散模型（LDM）的多模态条件的 3D 头像生成和编辑方法。我们的方法可以根据混合控制信号（例如 RGB 输入，分割掩模和全局属性）生成和编辑 3D 头像，从而在全局和局部方面提供对合成头像的更好控制。

Feb, 2024

MaGRITTe: 图像、鸟瞰与文本的操控和生成 3D 实现

使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景，通过预训练的文本到图像模型微调，以及布局条件的深度估计和神经辐射场（NeRF），实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景，避免创建庞大的数据集，得到了定性和定量的实验结果，证明了该方法能够根据多模态条件生成多领域的 3D 场景。

Mar, 2024

跨模态三维形状生成与操作

该论文提出了一种通用的多模态生成模型，通过共享潜在空间将 2D 模态和隐式 3D 表示耦合在一起，实现了通过简单地传播来自特定 2D 控制模态的编辑，从而实现了多样化的 3D 生成和操作。

Jul, 2022

用户指定内容的条件图像生成与操作

提出了一种单一的文本到图像生成和操纵的流程，其中在我们的流程的第一部分，介绍了 TextStyleGAN 这个在文本上进行训练的模型；第二部分使用预训练的 TextStyleGAN 权重进行语义面部图像操纵，并通过在潜空间中找到语义方向来完成。我们展示了该方法可以用于广泛的面部图像属性操纵，并介绍了 CelebTD-HQ 数据集作为 CelebA-HQ 的扩展，其中包含了人脸及相应的文本描述。

May, 2020

三维感知视频生成

本文探讨了生成对抗网络 (GANs)，将神经隐式表示与时间感知区别器相结合，发展了一种 GAN 框架，仅用单目视频合成了 3D 视频，能够学习可分解的 3D 结构和运动的丰富嵌入，实现了新的时空渲染视觉效果，同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。

Jun, 2022

2D GANs 遇见无监督单视角 3D 重建

提出了一种新的基于图像的神经隐式场方法，该方法利用基于 GAN 生成的多视图图像的 2D 监督，并通过不确定性模块来提高重构性能，从而实现了泛化物体的单视角 3D 重构。

Jul, 2022

3D 感知条件图像合成

提出了一种名为 pix2pix3D 的 3D 感知条件生成模型，可以进行可控的写实图像合成，并通过神经辐射场扩展了条件生成模型，从而实现了显式的 3D 用户控制，并建立了一个交互系统，允许用户从任意视角编辑标签图，并相应地生成输出。

Feb, 2023

基于生成对抗学习的少样本 3D 多模态医学图像分割

我们提出了一种基于生成对抗网络（GANs）的新方法，用于使用标记和未标记的图像训练分割模型，并针对神经影像学中的 3D 多模态医学图像分割问题进行了全面分析。在对 iSEG-2017 和 MRBrainS 2013 数据集进行试验后，我们报告了与完全监督训练相比的显着性能提高。

Oct, 2018

基于条件隐式极大似然估计的多模态图像合成

本文提出了基于 IMLE 的新型多模式条件图像合成方法，并在两个任务中演示了更好的多模式图像合成性能，即单幅图像超分辨率和从场景布局中的图像合成。

Apr, 2020

带条件生成对抗网络的成对三维模型生成

本文研究了在生成条件之下如何进行三维模型的生成，并提出了一种新的方法来使得在不同旋转角度下生成的同一模型相同。实验结果表明该方法可以成功地生成不同条件下的模型对。

Aug, 2018