真实表演的无监督学习风格感知面部动画
本文提出了一种新型的自我监督混合模型(DAE-GAN),它结合了两个形变自编码器及条件生成的最新进展,用于学习如何在大量未标记视频的情况下自然地再现人脸,并且在 VoxCeleb1 和 RaFD 数据集上得到了优秀的实验结果,表明了重新表演图像的优异品质和在不同身份之间转移面部动作的灵活性。
Mar, 2020
本文介绍了利用变分自编码器(VAE)来实现语音合成模型的端到端学习,以无监督的方式学习发音风格的潜在表示。通过 VAE 学习到的风格表示具有解缠、缩放和组合等良好的特性,使得风格控制变得容易。通过先通过 VAE 的识别网络推断出风格表示,然后将其馈入 TTS 网络来引导语音合成中的风格,可以在这个框架中实现风格转移。为了避免在训练过程中 KL 散度崩溃,采用了多种技术。最后,所提出的模型在风格控制上表现良好,并在风格转移的 ABX 偏好测试中优于全局风格令牌(GST)模型。
Dec, 2018
本文提出了一种基于深度神经网络的方法,通过输入音频信号和短视频,生成个性化头部姿态、表情和口型同步,并使用记忆增强的生成对抗网络模块来优化合成效果的自然对话人脸视频。实验表明,该方法可以在较少帧数的情况下生成高质量、自然的对话人脸视频。
Feb, 2020
本文提出了一种基于深度学习的新型方法,用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。
May, 2018
通过建模特定身份的面部动作为潜在表示(称为样式),并在各种情感类别的语音输入中合成具有目标样式的新动画,我们提出了一种个性化语音驱动的富有表现力的 3D 面部动画综合框架。
Oct, 2023
本文介绍了一种基于多视角捕捉技术,利用深度变分自编码器来学习人脸的几何结构和外观特征联合表示,可实现对大规模、高度复杂的人脸几何结构的完美表现,从而能够适用于实时互动场景,例如虚拟现实 (VR) 应用。
Aug, 2018
提出一种使用神经网络的头发渲染流程,通过共享潜在空间编码两个领域的外观不变结构信息生成逼真的渲染图像,并使用简单而有效的时间条件方法,可以在未经监督的情况下工作于任意头发模型,并在大量肖像上测试,得出其优于替代方案和最先进的无监督图像翻译方法的结论。
Apr, 2020
本文介绍了一种运用 VAE 和 Transformer-Based 架构实现人体运动序列的有条件生成,以及改进行为识别和降噪等两种应用。
Apr, 2021
提出了一种使用扩散模型(SAiD)和基于 Transformer 的轻量级 U-Net 实现的语音驱动的 3D 面部动画方法,其中引入了音频和视觉之间交叉模态对齐偏差以增强唇部同步性,并通过引进 BlendVOCA 数据集解决公共资源稀缺问题。实验结果表明,该方法在唇部同步性上与基线方法相当或更出色,并确保了更多样化的唇部运动,并简化了动画编辑过程。
Dec, 2023
提出了一种新的神经网络结构来解决单张图像类比的问题,我们的网络是一个修改后的变分自编码器(VAE),支持有监督的训练和结构相似性目标的输出评估,通过对于 62 个字体从单个样例字母的生成展示出比现有技术更优异的结果。
Mar, 2016