单图像生成说话人动漫的改进模型及其蒸馏
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
本文介绍了一种由音频信号驱动的、生成具有个性化的逼真说话动画的活体系统,包括从音频信号中提取深度音频特征,分析面部动态和姿态,并在最终的阶段生成逼真的面部细节。
Sep, 2021
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
ScanTalk 是一个新的框架,利用 DiffusionNet 架构来解决面部固定拓扑结构的限制,实现任意拓扑结构的 3D 面部动画。通过与现有技术的全面比较,验证了该方法生成与现有技术可媲美的逼真说话头部的有效性。
Mar, 2024
本文提出一种基于音频驱动的头像动画方法,该方法同时解决了面部动画和头部运动的问题,并且采用了神经网络来预测和生成头部和面部的动画以及背景的动作。通过关键点密集的运动场表示,本方法产生的头像动画具有很好的空间和时间连续性,并且性能优于现有技术。
Jul, 2021
该研究提出了一种通过对单视角幅面图像进行重建和动画化的三维头像,通过三个三角面分别捕捉源图像的粗略三维几何,详细外观以及目标图像的表情实现,再通过超分辨率模块的渲染进行填充并通过单向传递网络的高效性进行动画。实验表明,该方法在重建和动画方面优于当前最先进的基线方法,并且对新的验证数据集有很好的泛化能力。
Jun, 2023
Real3D-Potrait 是一种框架,通过使用大型图像到平面模型和高效的运动适配器,从而改进了一次性 3D 重建的能力,实现了精确的运动条件动画,并利用头 - 躯干 - 背景超分辨率模型生成具有自然躯干运动和可切换背景的逼真视频,同时支持一次性以音频驱动的说话脸生成。与以前的方法相比,广泛的实验证明 Real3D-Portrait 对于未见过的身份具有很好的泛化能力,并生成更逼真的说话肖像视频。
Jan, 2024
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
本研究提出了一种新颖的 3D 感知说话人视频动作迁移网络 Head3D,通过生成可视化可解释的 3D 标准头部,从 2D 主体帧中充分利用主体外貌信息,以适应驱动视频帧对齐。我们的方法的一个关键组成部分是自我监督的 3D 头部几何学习模块,能够从 2D 主体视频帧预测头部姿势和深度图。此外,我们还采用基于注意力的融合网络,将主体帧的背景和其他细节与 3D 主体头部相结合,生成合成目标视频。我们在两个公共说话人视频数据集上进行了广泛实验,结果表明 Head3D 在实际的跨身份设置中优于 2D 和 3D 先前方法,有证据显示它能够轻松适应受控姿态的新视图合成任务。
Nov, 2023