基于几何引导的密集透视网络用于语音驱动的面部动画
Talk3D 是一种新的音频驱动的说话头合成框架,通过有效地采用预训练的 3D 感知生成先验模型,可以忠实地重建其合理的面部几何形状。通过音频驱动的注意力 U-Net 架构,我们的模型预测 NeRF 空间中由音频驱动的动态面部变化,并由与音频无关的调节令牌调制,有效地解耦与音频特征无关的变化。与现有方法相比,我们的方法在生成逼真的面部几何形状方面表现出色,即使在极端的头部姿势下也能如此。我们还进行了广泛的实验证明我们的方法在定量和定性评估方面超越了现有的最新基准。
Mar, 2024
本文提出一种几何引导生成对抗网络 (G2-GAN),通过面部几何条件(标识点)来引导特定表情的面部纹理合成,实现逼真的与身份保护面部表情合成,并取得了良好的实验效果。
Dec, 2017
本文提出了一种基于混合形状几何、动态纹理和神经渲染的照片级头部模型的文本 / 语音驱动动画的新方法,该动画方法基于有条件的 CNN 将文本或语音转换为一系列动画参数。
Jun, 2023
本研究基于车辆的单一 RGB 图像,提出了一种学习框架,其将 3D 视角的特征表示与 2D 外观特征相结合进行车辆识别,通过在 BoxCars 数据集上的分类和验证任务中取得优越性能的结果验证了该方法的有效性。
Mar, 2019
通过建模特定身份的面部动作为潜在表示(称为样式),并在各种情感类别的语音输入中合成具有目标样式的新动画,我们提出了一种个性化语音驱动的富有表现力的 3D 面部动画综合框架。
Oct, 2023
该论文提出了一个新颖的通用音频驱动框架 RealTalk,包括音频到表情转换和表情到人脸渲染两个组成部分,通过跨模态注意力对丰富的面部先验信息进行对齐,以实现高精确度的唇语同步和实时生成高质量的面部图像。该方法在公共数据集上进行的实验结果表明,它在唇语同步和生成质量方面具有明显的优势,并且具有高效且需要较少计算资源的特点,非常适合实际应用。
Jun, 2024
通过采用扩散法为基础的方法框架,该研究提出了一种音频驱动下的肖像图像动画技术,通过引入层次化的音频驱动视觉合成模块,实现了更准确的音频输入与视觉输出的对齐,包括嘴唇、表情和姿势的动作,并通过定性和定量分析进行综合评估。
Jun, 2024
这篇论文提出了一种通过结合几何学和深度视觉表示学习的思想,将其嵌入移动视觉场景理解的递归网络架构中,以学习如何将 2D 视觉特征整合到场景的潜在 3D 特征映射中,通过不同 iable 几何操作进行预测和分割,十分成功。
Dec, 2018