TextGaze: 自然语言驱动的可操控注视生成人脸
本文提出了一种新颖的生成模型,能够在控制眼睛注视和头部方向角度方面达到细粒度控制,并通过在自学习中学习发现、解缠和编码这些外部变化来分离众多与外貌相关的因素,进而优化了准确性和数据下游任务,从而提高了端到端交叉数据集准确性的能力。
Oct, 2020
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024
本研究提出了一种基于自然语言描述生成高质量三维人脸模型的方法,通过建立 Describe3D 数据集以及使用两阶段框架来解决描述语言空间与形状 / 外观空间映射关系的问题,并且实验结果表明,该方法可以以比以往更高的精度和质量生成符合输入描述的三维人脸。
May, 2023
本文提出了一种面部生成方法,使用基于语音内容特征的图卷积神经网络,结合独立的情感输入,生成面部几何感知标记表示上的情感和语音感应运动,并在此基础上,利用光流引导的纹理生成网络生成纹理。
May, 2022
通过引入文本条件,该论文提出了一种名为 TG-3DFace 的文本引导的 3D 人脸生成方法,利用全局对比学习和细粒度对齐模块两种跨模态对齐技术,实现了更逼真和语义一致的纹理生成。
Aug, 2023
本文介绍了一种利用生成式对抗网络和自然语言处理模型生成人脸的新方法,将面部描述转换为可学习的潜在向量,从而生成与这些特征相对应的面部。
Jan, 2023
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
通过研究人类注视和深度神经网络注意力机制之间的相互作用,我们提出了一种新的注视辅助图像字幕模型,将人的注视信息集成到基于注意力的 LSTM 结构中,能够将算法选择性地分配到注视和非注视的图像区域,这种方法通过对 COCO / SALICON 数据集的评估,显示了我们方法改善了图像字幕性能,并且注视可以补充机器的注意力,提高了语义场景理解的任务。
Aug, 2016
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023