通过直接的跨模态映射和几何规则化进行快速的文本到 3D 感知人脸生成和操纵

Mar, 2024

通过直接的跨模态映射和几何规则化进行快速的文本到 3D 感知人脸生成和操纵

Fast Text-to-3D-Aware Face Generation and Manipulation via Direct Cross-modal Mapping and Geometric Regularization

Jinlu Zhang, Yiyi Zhou, Qiancheng Zheng, Xiaoxiong Du, Gen Luo...

TL;DR提出了一种高效并且准确的网络，用于快速生成和处理 3D 感知人脸，名为 $E^3$-FaceNet，通过直接映射文本指令到 3D 感知的视觉空间，实现类似图片的 3D 人脸生成和处理，并显著提高推断速度。

Abstract

text-to-3d-aware face (T3D Face) generation and manipulation is an emerging research hot spot in machine learning, which still suffers from low efficiency and poor quality. In this paper, we propose an End-to-End effici

text-to-3d-aware face t3d face generation $e^3$-facenet efficient fast

发现论文，激发创造

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

M$^3$Face：一种统一的多模态多语言人脸生成与编辑框架

M3Face 是一个统一的多模态多语言框架，用于可控的人脸生成和编辑，它使用户能够仅通过文本输入来自动生成控制模态，如语义分割或面部标志，并随后生成人脸图像。

Feb, 2024

3D 引导细粒度人脸操作

提供了一种细致的人脸操作方法，利用三维人脸模型和分离出质地和形状的方法进行纹理和形状不同表情的构建，进而通过生成网络和全连接网络实现表情的合成和准确形状的预测，获得了优越的结果，并被 85% 的用户优先选择，并且在 53% 的情况下，注释员无法可靠地区分合成的图像和真实图像的差别。

Feb, 2019

基于文本指导的三维人脸合成 -- 从生成到编辑

通过文本引导的三维人脸合成，从生成到编辑的统一框架，通过解耦生成几何和纹理来提高几何细节的生成效果，并利用生成几何作为纹理生成的条件，进一步提升几何与纹理的一致性结果；通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑，并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改，并提出自导向一致性权重策略以提高编辑效果与保持一致性；通过全面实验展示了该方法在人脸合成方面的优越性。

Dec, 2023

3D-FM GAN: 面部三维可控制变化

提出了一种新的 3D 可控脸部操作方法：3D-FM GAN，通过将输入脸部图像和 3D 编辑的真实渲染相结合，可以提供高质量、身份保留、3D 可控的脸部操作，相较于现有技术，具有更好的可编辑性、更强的身份保护和更高的照片逼真度。

Aug, 2022

ET3D：通过多视角蒸馏实现高效的文本到三维生成

通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号，我们提出了一种高效的文本到 3D 生成方法，在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产，并且不需要 3D 训练数据，通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。

Nov, 2023

自然语言描述生成高保真 3D 人脸

本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法，通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题，并且实验结果表明，该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。

May, 2023

带有条件风格代码扩散的可控三维人脸生成

通过将任务分为三个组成部分（即 3D GAN Inversion，Conditional Style Code Diffusion，3D Face Decoding），我们提出了一种名为 TEx-Face（文本和表情生成面部）的新方法，以实现高效和可控的生成逼真的 3D 面部模型。

Dec, 2023

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

我们提出了 Dual3D，一种新颖的文本到 3D 生成框架，仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型，通过单个潜在去噪网络可以有效去噪多视图潜在，在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块，避免了从头训练的昂贵代价。同时，我们提出了双模态切换推理策略，仅使用 1/10 的去噪步骤和 3D 模式，在仅 10 秒的时间内成功生成高质量的 3D 资产，同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理，大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。

May, 2024

Talk3D：个性化 3D 生成先验的高保真说话肖像合成

Talk3D 是一种新的音频驱动的说话头合成框架，通过有效地采用预训练的 3D 感知生成先验模型，可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构，我们的模型预测 NeRF 空间中由音频驱动的动态面部变化，并由与音频无关的调节令牌调制，有效地解耦与音频特征无关的变化。与现有方法相比，我们的方法在生成逼真的面部几何形状方面表现出色，即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。

Mar, 2024