情感可控泛化说话脸生成
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023
本研究提出了一种更灵活、更通用的基于文本、图像和语音情感模态的多模情感编码器,以及一个面向情感的音频到 3DMM 转换器和一个高保真情感脸生成器,通过充分利用深度神经网络,实现了情感控制的灵活性和可扩展性,进而提高了合成图像的质量和细节。
May, 2023
本研究提出了一种新的方法来在语音驱动的面部生成中呈现视觉情感表达,设计了一个端到端的语音驱动面部生成系统,可以在输入语音、单张面部图像和情感标签时呈现表情,在图像质量、音视频同步和视觉情感表达等方面表现出色,主观和客观的评估都证明了该系统的优越性。此外,还利用生成的视频进行了人类情感识别实验,结果表明在音频和视觉模态不匹配的情况下,人们对视觉模态的响应更为显著。
Aug, 2020
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024
本研究提出了一种名为 CSTalk 的方法,通过建模面部运动不同区域之间的相关性并监督生成模型的训练,生成符合人脸运动模式的真实表情,解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战,实验结果表明我们的方法优于现有最先进的方法。
Apr, 2024
基于音频驱动的控制型对话生成系统,可根据音频控制面部表情变形,包括单幅图像或顺序视频输入,能够实现准确而自然的口型同步,并能够定量控制嘴巴张开的形状。在广泛使用的基准测试中,我们的实验表明我们的方法在性能上优于最先进的技术,可实现表情变形的跨身份和跨语种的处理,并扩展其在异域肖像中的使用。
Jun, 2024
通过引入细粒度情绪控制和音频分离模块来实现精确表达细致情绪状态的面部动画生成,有效控制情感表达并提高生成视频的表达变化和嘴唇同步性能。
Feb, 2024
提出一种基于条件对抗生成的视频网络,该网络将音频输入作为条件并考虑面部图像在不同视频帧之间的时间依赖性,从而实现唇部和面部平稳过度,最终通过音频片段提取的音素分布信息,开发出一种样本选择方法,可以在不降低生成视频质量的情况下有效减小训练数据集的规模。
Apr, 2018