基于属性引导扩散模型的面部动画
利用扩散模型 enhance 了图生成模型在 3D 领域的能力,以图神经网络作为去噪扩散模型,通过在网格空间上直接进行扩散过程并生成 3D 面部表情,实现了可控且高保真的 4D 面部动画合成。
Mar, 2024
本研究提出了一种基于 Diffusion Models 和 Texture-Geometry-aware 的面部生成方法,采用基于纹理注视的模块准确地建模源和目标条件中的外观和几何线索之间的对应关系,并结合额外的隐式信息进行高保真度的面部生成,并且能够优雅地用于面部交换。
May, 2023
通过引入高效有效的 Face-Adapter,我们旨在解决资源密集型的训练问题,从而实现预训练扩散模型的高精度和高保真度的人脸编辑,该模型在运动控制精度、ID 保留能力和生成质量方面具有可比甚至优越的表现。
May, 2024
通过综合定量分析和视觉比较,我们展示了加速自回归运动扩散模型(AAMDM)在运动质量、多样性和运行效率方面优于现有方法,并通过消融研究证明了每个算法组成部分的有效性。
Dec, 2023
我们提出的 3DiFACE 方法是一种用于个性化语音驱动的 3D 面部动画和编辑的新方法。通过引入一种轻量级的音频条件扩散模型,我们能够在保持表现力丰富的唇部运动输出的同时,允许随机性和动作编辑。经过定量和定性评估,我们展示了我们的方法优于现有的技术,并产生更具保真度和多样性的语音驱动动画。
Dec, 2023
通过使用扩散模型为基础的框架 FADM,本文提出了一种从存在偏见的数据集中生成全新的、公平的合成数据,而不是直接引入公平学习算法来解决人工智能决策公正性问题。实验证明,FADM 在下游任务中表现出更好的准确性和最佳的公平性,同时允许对生成样本的类别进行灵活控制。
Jun, 2024
提出了一种利用 Speech-Conditioned Latent Diffusion Model (SCLDM) 的语音到人脸生成框架,通过对话音频和面部特征之间的对比预训练以及引入残差的方式,实现了更加逼真的人脸图像生成。在 AVSpeech 数据集和 Voxceleb 数据集上,该方法在所有度量指标上均取得了显著提升,尤其是在余弦距离度量指标上分别提升了 32.17 和 32.72。
Oct, 2023
提出了一种基于生成对抗网络的端到端人脸转移方法,使用 CycleGAN 生成目标角色的面部图像并探究了 PatchGAN 以及不同感受野大小对生成图像的影响。
Oct, 2017
本文提出了一种基于三维几何流(Facial Flow)的面部动作表示方法和一种基于此表示方法的层次化条件生成框架,该方法与其他先进方法相比,具有更好的连续性和鲁棒性。
May, 2022
通过提出的 MoDiTalker 模型,我们成功地解决了传统 GAN 模型在生成对话头像时存在的质量有限和训练不稳定的问题,并通过引入音频到运动和运动到视频两个模块,实现了高质量的对话头像生成。
Mar, 2024