3D 说话风格的捕捉、学习和综合
提出了一种创新的数据驱动技术,通过将一组无表情的 3D 说话头与一组 3D 表情序列相结合,创建了一个合成数据集 EmoVOCA,再使用该数据集设计和训练了一个情感 3D 说话头生成器,通过接受 3D 面部、音频文件、情感标签和强度值作为输入,并学习将音频同步的唇部动作与面部的表情特征相结合,实验结果证明了该方法在合成逼真动画方面的优势。
Mar, 2024
本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型,该模型具有良好的泛化能力和包括口型同步在内的高保真度,能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像,经实验证明其优越性。
Jun, 2023
VividTalker 是一个新框架,旨在辅助具有灵活头部姿势和自然面部细节的以语音驱动的 3D 面部动画,通过将面部动画显式地分解为头部姿势和口腔运动,并将其单独编码为离散潜在空间,然后利用基于窗口的 Transformer 架构通过自回归过程生成这些特征。在与语音内容一致的情况下,使用新的 3D 数据集构建了具有详细形状的面部细节合成并学习。广泛的定量和定性实验证明,VividTalker 胜过了现有最先进的方法,实现了生动逼真的以语音驱动的 3D 面部动画。
Oct, 2023
该研究提出了一种基于多模态的方法来实现从单目视频中进行 4D 人脸重建,并使用 AVFace 技术准确地重构任何人的面部和唇部运动,而无需任何 3D 地面真实测试。
Apr, 2023
本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法,通过音频和 3D 运动系数生成 3D 头部姿态和表情,利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成,并使用生成的 3D 运动系数合成最终视频,实验结果表明了该方法优于其他方法。
Nov, 2022
通过多语种 2D 视频数据集,引入多语种增强模型,利用语言特定的样式嵌入,提高了 3D 说话人模型的多语种性能,并提出了度量多语种环境下的唇同步准确性指标。
Jun, 2024
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型,我们能够在保持表现力丰富的唇部运动输出的同时,允许随机性和动作编辑。经过定量和定性评估,我们展示了我们的方法优于现有的技术,并产生更具保真度和多样性的语音驱动动画。
Dec, 2023
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021