MaTe3D: 基于掩码引导的基于文本的三维人像编辑
本文提出了一个结合了低分辨率可编辑性和高质量的生成模型,是3D-semantics-aware方法的新途径,在视图一致、语义分离的面部图像方面具有状态-of-the-art的性能、忠实度和效率。
May, 2022
通过引入文本条件,该论文提出了一种名为TG-3DFace的文本引导的3D人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
通过建立一种名为InstructPix2NeRF的端到端扩散型框架,实现对单个开放世界图像的人类指导的三维感知人像编辑,实现了多语义编辑,保存了人像身份信息,并通过身份一致性模块增强了多视角三维身份的一致性,实验证明了该方法在定量和定性上的优越性。
Nov, 2023
通过文本引导的三维人脸合成,从生成到编辑的统一框架,通过解耦生成几何和纹理来提高几何细节的生成效果,并利用生成几何作为纹理生成的条件,进一步提升几何与纹理的一致性结果;通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入UV域一致性保持正则化以防止对不相关面部属性的无意更改,并提出自导向一致性权重策略以提高编辑效果与保持一致性;通过全面实验展示了该方法在人脸合成方面的优越性。
Dec, 2023
该研究提出了3DPE,一种能够根据给定提示(如参考图像或文字描述)以三维感知的方式高效编辑人脸图像的实用工具。通过从三维人像生成器和文本到图像模型中提取的一个轻量级模块,该系统提供面部几何知识和开放词汇编辑能力的先验知识。这种设计相比现有方法具有两个优势。首先,我们的系统使用前馈网络实现实时编辑(每图像约0.04秒),比第二位竞争者快100倍以上。其次,得益于强大的先验知识,我们的模块能够专注于学习与编辑相关的变化,在训练阶段同时处理各种类型的编辑,并在推断过程中快速适应用户指定的新型编辑(例如,每个案例约需要5分钟微调)。为了便于未来研究,代码、模型和界面将公开提供。
Feb, 2024
提出了一种高效并且准确的网络,用于快速生成和处理3D感知人脸,名为$E^3$-FaceNet,通过直接映射文本指令到3D感知的视觉空间,实现类似图片的3D人脸生成和处理,并显著提高推断速度。
Mar, 2024
DiffFAE是一个基于扩散的高效一阶段框架,旨在实现高保真的面部外貌编辑。通过使用基于3D Morphable Model(3DMM)的渲染纹理,采用空间敏感的物理定制(SPC)来确保高保真度和泛化能力;通过引入区域响应的语义组合(RSC)模块来保留源属性;通过一致性正则化来增强编辑可控性。实验证明,DiffFAE在面部外貌编辑方面具有优越性能,达到了领先水平。
Mar, 2024
提出了一种基于属性特定的提示学习的高效、即插即用的三维感知人脸编辑框架,该框架利用可学习的样式令牌和样式映射器,通过预先训练的视觉语言模型在任何预先训练的三维感知生成对抗网络的潜在空间中找到以文本为导向的属性特定编辑方向,并将其转化为三维潜在空间。通过多个三维感知的身份和姿势保持损失,保证了视角一致性和身份保持。实验证明,该方法能够生成具有三维感知和视角一致性的高质量图像,同时保持属性特定的特征。
Jun, 2024