合法使用合成说话头像视频的头像指纹识别
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
本研究提出了一种基于真实对话视频的假脸检测技术,通过跨模态自监督学习得到时序稠密视频表示,鼓励假脸检测器基于面部运动、表情和身份等因素做出真 / 假决策,并在交叉操作泛化和鲁棒性实验中取得了最先进的表现。
Jan, 2022
我们提出了一种从只有一个肖像作为参考的照片逼真数字化头像的合成方法。该方法使用驱动关键点特征合成粗糙的说话头视频。使用粗糙视频,该方法使用变形神经辐射场合成粗糙的说话头头像。通过渲染粗糙头像的图像,该方法使用盲目人脸修复模型更新低质量图像。通过更新后的图像,我们重新训练以获得更高质量的头像。经过几轮迭代,我们的方法可以合成逼真的可动画的 3D 神经头像。我们的方法通过在各种主题上进行定量和定性研究超越了最先进的方法。
Jul, 2023
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
我们提出了一个框架,用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频,我们输出一个人的多个姿势动作可能性,包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合,以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作,能够表达姿势中的重要细微之处(如冷笑和假笑)。为了促进这项研究,我们介绍了一种首次出现的多视角对话数据集,可以进行逼真的重建。实验证明,我们的模型生成了适当且多样化的姿势动作,优于仅使用扩散或仅使用向量量化的方法。此外,我们的感知评估突出了逼真(与网格)对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。
Jan, 2024
本文提出了一种名为 Pre-Avatar 的系统,通过一张正面照片和 3 分钟的语音记录,生成一个具有说话者形象的演示视频,核心技术包括用户体验界面 (UEI)、说话人形象生成、少样本文本到语音 (TTS) 等几个子模块。用户只需要用不同的注释替换幻灯片,即可生成新视频,这将降低沟通材料的制作和复制成本。
Oct, 2022
本文提出一种使用图像条件扩散模型和神经辐射场方法,通过短单眼 RGB 视频和文本说明合成编辑后的、照片逼真的可动 3D 神经头像的方法。在各种主题的定量和定性研究中,我们的方法胜过了现有技术。
Jun, 2023