TextGaze: 自然语言驱动的可操控注视生成人脸

Apr, 2024

TextGaze: 自然语言驱动的可操控注视生成人脸

TextGaze: Gaze-Controllable Face Generation with Natural Language

Hengfei Wang, Zhongqun Zhang, Yihua Cheng, Hyung Jin Chang

TL;DR本文提出了一种新颖的可控凝视的人脸生成任务，方法使用文本描述输入来生成具有相应凝视特征的人脸图像，并通过面部草图和 3D 人脸模型实现了凝视的文本到人脸的转换。实验证明了方法的有效性，同时作者将提供数据集和代码以供今后研究使用。

Abstract

Generating face image with specific gaze information has attracted considerable attention. Existing approaches typically input gaze values directly for face generation, which is unnatural and requires annotated gaze datasets for training, thereby limiting its application. In this paper, we present a novel →

gaze-controllable face generation textual descriptions face sketch 3d face model ffhq dataset

发现论文，激发创造

自学转换以改善注视和头部重定向

本文提出了一种新颖的生成模型，能够在控制眼睛注视和头部方向角度方面达到细粒度控制，并通过在自学习中学习发现、解缠和编码这些外部变化来分离众多与外貌相关的因素，进而优化了准确性和数据下游任务，从而提高了端到端交叉数据集准确性的能力。

Oct, 2020

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

自然语言描述生成高保真 3D 人脸

本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法，通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题，并且实验结果表明，该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。

May, 2023

情感可控泛化说话脸生成

本文提出了一种面部生成方法，使用基于语音内容特征的图卷积神经网络，结合独立的情感输入，生成面部几何感知标记表示上的情感和语音感应运动，并在此基础上，利用光流引导的纹理生成网络生成纹理。

May, 2022

基于文本指导的人物图像合成

本论文提出了一种新颖的方法，根据自然语言描述操纵人物图像的视觉外观和姿态，并进行了广泛的实验以证明该方法的有效性。

Apr, 2019

高保真文本引导的 3D 人脸生成与操作仅通过图像

通过引入文本条件，该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法，利用全局对比学习和细粒度对齐模块两种跨模态对齐技术，实现了更逼真和语义一致的纹理生成。

Aug, 2023

使用有条件训练的输入生成对抗网络从文本特征生成人脸

本文介绍了一种利用生成式对抗网络和自然语言处理模型生成人脸的新方法，将面部描述转换为可学习的潜在向量，从而生成与这些特征相对应的面部。

Jan, 2023

高保真自由可控的说话头部视频生成

本文提出了一种新模型，通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模，并引入了新的运动感知多尺度特征对齐模块来进行视频合成，从而实现了对头部姿态和表情的自由控制，并且得到了最优质的合成音频视频输出。

Apr, 2023

与人类视线互动的神经图像字幕生成

通过研究人类注视和深度神经网络注意力机制之间的相互作用，我们提出了一种新的注视辅助图像字幕模型，将人的注视信息集成到基于注意力的 LSTM 结构中，能够将算法选择性地分配到注视和非注视的图像区域，这种方法通过对 COCO / SALICON 数据集的评估，显示了我们方法改善了图像字幕性能，并且注视可以补充机器的注意力，提高了语义场景理解的任务。

Aug, 2016

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023