CP-EB: 可控姿势和眨眼的对话人脸生成嵌入
本文提出了一种通过音频信号和短视频剪辑生成逼真的视频头像的方法,该方法包括 FACIAL-GAN (FACe Implicit Attribute Learning Generative Adversarial Network)和 Rendering-to-Video 网络,并可以产生不仅与语音同步的唇部运动,而且还有自然的头部运动和眼部闪烁。
Aug, 2021
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
基于音频驱动的控制型对话生成系统,可根据音频控制面部表情变形,包括单幅图像或顺序视频输入,能够实现准确而自然的口型同步,并能够定量控制嘴巴张开的形状。在广泛使用的基准测试中,我们的实验表明我们的方法在性能上优于最先进的技术,可实现表情变形的跨身份和跨语种的处理,并扩展其在异域肖像中的使用。
Jun, 2024
本文提出了一种简洁而有效的框架来生成姿势可控的对话脸,通过使用隐式低维姿势代码对原始面部图像进行操作,实现语音和头部姿势信息的联合非身份嵌入空间,通过调制卷积重建框架,在极端视角稳健的情况下生成准确的唇形同步会话,并具有多种先进功能,例如对话面部前视。
Apr, 2021
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024
该研究提出了一种新的框架来解决基于面部生成技术的下游任务中的眼部控制问题,该框架包括两个不同的模块:眨眼控制模块和注视重定向模块,并提出了一种新的数据增强方法来训练每个模块,证明该框架能够生成高质量的眼睛控制图像,并改善下游任务的性能。
Jun, 2023
提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024