EMOCA: 基于情感驱动的单目人脸采集和动画
提出了一种创新的数据驱动技术,通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合,创建了一个合成数据集 EmoVOCA,再使用该数据集设计和训练了一个情感 3D 说话头生成器,通过接受 3D 面部、音频文件、情感标签和强度值作为输入,并学习将音频同步的唇部动作与面部的表情特征相结合,实验结果证明了该方法在合成逼真动画方面的优势。
Mar, 2024
为了实现面部三维动画的情感表达和语音的同步,研究者开发了一种名为 EMOTE 的系统,它通过在空间局部和时间高频率上对语音内容进行口型识别来训练表情,同时维持与语音同步且具有完全的情感表达。
Jun, 2023
在这项工作中,我们通过关注音频线索和面部动作之间的动态和微妙关系,解决了提高说话视频生成中的真实感和表现力的挑战。我们确定了传统技术的局限性,常常无法捕捉到人类表情的全谱和个体面部风格的独特性。为了解决这些问题,我们提出了 EMO,这是一个新颖的框架,利用直接的音频到视频合成方法,绕过了中间的 3D 模型或面部标记的需求。我们的方法确保了平滑的帧过渡和在整个视频中的一致身份保护,从而产生高度表现力和逼真的动画。实验结果表明,EMO 不仅能够产生令人信服的说话视频,还能以各种风格生成唱歌视频,其在表现力和逼真度方面明显优于现有最先进的方法学。
Feb, 2024
本文提出了一种名为 DECA 的模型,可以从单张图片中预测 3D 面部的个性细节、形状、色调、表情、姿势和光照,并通过一种新颖的细节一致性损失实现了个性的详情与表情的皱纹的解耦,从而使得重建面部的动画更加逼真。该模型能够在无 3D 监督的情况下进行学习,并在两个基准测试上达到最先进的形状重建精度。
Dec, 2020
我们对 MegaPortraits 模型进行了深入的检查和评估,重点关注其用于面部表情描述符的潜在空间,并发现了其表达强烈面部动作能力的几个局限。为解决这些限制,我们提出了针对训练流程和模型架构的重大改进,推出了我们的 EMOPortraits 模型。该模型增强了对于真实支持强烈非对称面部表情的能力,在情感转移任务中取得了新的技术水平,在指标和质量方面超越了以往的方法。此外,我们将语音驱动模式融入模型,实现了在音频驱动的面部动画中的顶级性能,使得通过不同的模态,包括视觉信号、音频或两者的混合驱动源标识成为可能。还提出了一个新颖的多视角视频数据集,包括广泛范围的强烈非对称面部表情,填补了现有数据集中这类数据的空白。
Apr, 2024
我们介绍了一个独特的 4D 人脸数据集,使用它训练的神经网络 VOCA 可以根据语音信号实现逼真的人脸动画,可被用于游戏视频、虚拟现实头像等多种领域。
May, 2019
本文提出了一种基于深度卷积自编码器的新颖模型,用于从野外拍摄的单幅彩色图像重建三维人脸。通过将卷积编码器与专家设计的生成模型相结合,提出了一种新的可微分参数解码器。该解码器将基于生成式模型的图像形成解析包括在内,以输入的码向量作为输入,从单个单眼输入图像中提取具有明确定义语义含义的参数。该文章的一个突破是在无监督的情况下,首次实现了 CNN 编码器和专家设计的生成模型的端到端训练,这使得对非常大的(未标记的)真实世界数据进行训练成为可能。所得到的重建结果在质量和表示的丰富性方面均优于当前最先进的方法。
Mar, 2017
艺术视频肖像生成是计算机图形学和视觉领域中一个重要且受追捧的任务。针对现有方法所面临的大样本数据集、定制过程繁琐和图像质量下降等挑战,我们提出了一种名为 Emo-Avatar 的高效单调视频风格化头像生成方法,利用延迟神经渲染技术增强 StyleGAN 生成动态的可驾驶肖像视频的能力。该方法通过两阶段的延迟神经渲染流程,结合 PIT 初始化和拉普拉斯金字塔纹理采样等技术,实现了对风格化肖像视频的快速生成和编辑,具有比现有方法更高的训练效率、渲染质量和可编辑性。
Feb, 2024
本文介绍了一种利用虚拟现实技术中红外监视器拍摄到的眼部图像,从而在遮挡部分面部的情况下,自动推断用户的表情,并生成动态的虚拟头像作为用户的表情代理。实验结果表明,该算法的准确度显示出性能优于人类评估者。
Jul, 2017
利用多帧视频自我监督训练深度网络,学习面部身份模型并同时重建 3D 面部,采用新的多帧一致性损失函数使得 consistent shape 和 appearance 尽量减小深度不确定性,从而实现单目和多帧重建。
Dec, 2018