文本和图像帮助下的 3D 头像创造与操作
提出了基于扩散模型的文本驱动实际面部图像编辑方法,并通过 ChatFace 交互式系统实现了精确的零样本和多属性操纵。
May, 2023
该研究提出了一种统一框架来生成和处理面部图像,基于预训练的 GAN 模型,使用两种新颖的策略,直接优化潜在空间的潜在编码以获取多模式输入的图像生成和操纵,并提出了一个大型数据集 Multi-Modal CelebA-HQ。
Apr, 2021
本文提出了一种新的基于 3D 可塑模型(3DMM)的文本引导头部生成方法,利用扩散模型生成多视图一致性辐射场的同时更新几何和纹理以生成和文本描述一致的 3D 头部化身,以此在一定程度上提高 3D 头部生成的精度和多样性。
Jul, 2023
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
使用部分图像、顶视图的布局信息和文本提示来控制和生成多模态条件下的 3D 场景,通过预训练的文本到图像模型微调,以及布局条件的深度估计和神经辐射场(NeRF),实现从给定条件生成 2D 图像和从 2D 图像生成 3D 场景,避免创建庞大的数据集,得到了定性和定量的实验结果,证明了该方法能够根据多模态条件生成多领域的 3D 场景。
Mar, 2024
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
本文介绍了一种基于 StyleGAN 生成器和学习到的注意力图的方法,通过在编辑图像时使用注意力图作为掩蔽层,同时使用 CLIP 算法来引导潜空间的编辑,实现对面部局部区域的控制性编辑。实验结果表明,与其他替代方法相比,我们的方法可以实现非常可控的面部区域编辑,具有更好的性能。
Feb, 2022
该研究论文研究了如何利用 StyleCLIP 和神经网络技术来对 CAD 模型进行自动化相关特性的优化,扩展了 StyleCLIP 的能力以适用三维 CAD 模型,从而利用未标记的 CAD 数据量实现设计优化。
Mar, 2023
通过结合文字和图像信息,利用扩散模型,我们开发了一种零样本的三维生成模型,能够合成高分辨率纹理网格,实现了将二维图像直接转化为三维空间的功能。
Aug, 2023
我们介绍了一种基于 3D 生成对抗网络(GAN)和潜在扩散模型(LDM)的多模态条件的 3D 头像生成和编辑方法。我们的方法可以根据混合控制信号(例如 RGB 输入,分割掩模和全局属性)生成和编辑 3D 头像,从而在全局和局部方面提供对合成头像的更好控制。
Feb, 2024