IDE-3D: 高分辨率三维感知人像综合的交互式分离式编辑

May, 2022

IDE-3D: 高分辨率三维感知人像综合的交互式分离式编辑

IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis

Jingxiang Sun, Xuan Wang, Yichun Shi, Lizhen Wang, Jue Wang...

TL;DR本文提出了一个结合了低分辨率可编辑性和高质量的生成模型，是 3D-semantics-aware 方法的新途径，在视图一致、语义分离的面部图像方面具有状态 - of-the-art 的性能、忠实度和效率。

Abstract

Existing 3d-aware facial generation methods face a dilemma in quality versus editability: they either generate editable results in low resolution or high-quality ones with no editing flexibility. In this work, we

3d-aware facial generation generative model gas inversion editing flexibility photorealism

发现论文，激发创造

3D-SSGAN: 二维语义向三维感知组合肖像合成

3D-SSGAN 是一个新颖的 3D 感知合成肖像图像的框架，通过提供细粒度的部件级控制，并保持 3D 视图的一致性，在合成肖像图像的同时实现了清晰的人脸区域解缠，其通过引入一个基于深度引导的 2D 到 3D 映射模块和一个具有新颖的 3D 感知语义掩码渲染器的体积渲染器来生成合成的人脸特征和相应的掩码，并通过区分真实和合成的 2D 图像和语义掩码的方式进行端到端的训练，定量和定性评估证明了 3D-SSGAN 在可控的部件级合成和保持 3D 视图一致性方面的优越性。

Jan, 2024

Portrait3D：基于单张野外人像图像的 3D 头部生成

提出了 Portrait3D 框架，通过将肖像图像的身份信息整合到几何初始化、几何塑造和纹理生成阶段中，实现了从单幅肖像图像生成高质量 3D 头像的方法。

Jun, 2024

DeepFaceEditing: 利用分离的几何和外表控制实现人脸的深度生成和编辑

DeepFaceEditing 是一种针对面部图像的结构解缠框架，旨在支持面部生成和编辑，具有几何和外表的解缠控制能力。该方法采用了局部到全局的方法，将面部组件图像分解为几何和外貌表示，并使用全局融合模块进行一致融合，以提高生成质量，并利用草图辅助提取更好的几何表示，同时也支持通过草图进行直观的几何编辑。该方法相较于最先进的方法表现出更优秀的细节和外观控制能力。

May, 2021

自由风格和快速的 3D 肖像合成

提出了一种利用文本提示来指定风格的快速 3D 肖像合成框架，该方法借助生成先验来构建少量样本，采用目标样式替换预训练 3D 生成器的三层平面生成器，从而实现了高质量和一致性风格合成。

Jun, 2023

SemanticHuman-HD: 高分辨率语义解耦三维人物生成

本研究提出了 SemanticHuman-HD 方法，它是首个能够实现语义分解的人体图像合成方法，并且能够在 1024^2 分辨率下实现 3D 感知图像合成，通过借助深度图和语义掩膜作为 3D 感知超分辨率的指导，在体素渲染过程中显著减少采样点数量，降低了计算成本。通过对比实验验证了我们方法的优越性，并通过消融实验验证了各个提出组件的有效性。此外，我们的方法为 3D 服装生成、语义感知图像合成、可控图像合成和领域外图像合成等各种应用提供了激动人心的可能性。

Mar, 2024

多模态条件下的三维感知图像生成和编辑

本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型，通过纯噪声、文本和参考图像等多种条件输入，在 3D 生成对抗网络（GANs）的潜在空间中深入研究并提出解缠特性较好的生成策略，同时采用统一框架进行灵活的图像生成和编辑任务，实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明，该方法在图像生成和编辑方面在质量和数量上均优于替代方法。

Mar, 2024

基于单张图像的实时三维感知肖像编辑

该研究提出了 3DPE，一种能够根据给定提示（如参考图像或文字描述）以三维感知的方式高效编辑人脸图像的实用工具。通过从三维人像生成器和文本到图像模型中提取的一个轻量级模块，该系统提供面部几何知识和开放词汇编辑能力的先验知识。这种设计相比现有方法具有两个优势。首先，我们的系统使用前馈网络实现实时编辑（每图像约 0.04 秒），比第二位竞争者快 100 倍以上。其次，得益于强大的先验知识，我们的模块能够专注于学习与编辑相关的变化，在训练阶段同时处理各种类型的编辑，并在推断过程中快速适应用户指定的新型编辑（例如，每个案例约需要 5 分钟微调）。为了便于未来研究，代码、模型和界面将公开提供。

Feb, 2024

3D 引导细粒度人脸操作

提供了一种细致的人脸操作方法，利用三维人脸模型和分离出质地和形状的方法进行纹理和形状不同表情的构建，进而通过生成网络和全连接网络实现表情的合成和准确形状的预测，获得了优越的结果，并被 85% 的用户优先选择，并且在 53% 的情况下，注释员无法可靠地区分合成的图像和真实图像的差别。

Feb, 2019

VIVE3D: 使用 3D 感知 GAN 进行独立于视点的视频编辑

通过提出 VIVE3D 方法，我们引入了一种新的方法，扩展了基于图像的三维生成对抗网络的能力，使其能够在保持身份不变和保持时间一致的同时呈现输入视频。我们提出了两个新的构建块。第一个是针对三维生成对抗网络专门定制的新颖 GAN 反演技术，通过联合嵌入多个帧并优化相机参数来实现。其次，除了传统的语义面部编辑（例如年龄和表情），我们首次展示了借助 3D GANs 的固有属性和我们的光流引导合成技术显示头部的新视图的编辑，并将其与背景视频结合。我们的实验表明，VIVE3D 以一致的质量从一系列摄像机视角生成高保真度的面部编辑，并以时间和空间一致的方式与原始视频合成。

Mar, 2023

FENeRF: 神经辐射场中的人脸编辑

使用 FENeRF 三维图像生成器，为了在保持视觉一致性的同时生成本地可编辑的肖像图像，我们提出了一种方法。

Nov, 2021