实时 2D 动画唇同步
使用一维卷积和 LSTM 的深度神经网络模型,结合语音识别模型和速度损失值的方式,实现了音频与动态唇形同步的三维面部建模和动画,其生成的平滑和自然唇部运动已经成功在汉语口音的成人中得到验证。
May, 2022
本文提出了一种基于深度学习的新型方法,用于直接从输入音频中产生驱动 JALI 或标准 FACS 制作面部捕捉的动画师中心音频运动曲线。
May, 2018
本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人类干预,评估结果表明,我们的方法不仅能够从音频中生成准确的嘴唇运动,还能成功回归说话人的时间变化的面部运动。
May, 2019
给定了一个称为 Speech2Lip 的分解 - 合成 - 组合框架,该框架通过学习敏感于语音和不敏感于语音的运动和外观来从有限的训练数据中生成自然的视频,实现了短视频时的准确嘴唇和形象产生,以及视频的视觉质量和语音 - 视觉同步方面的最新性能。
Sep, 2023
研究如何 lip-sync 一个任意身份的说话面部视频以匹配目标语音片段,并使用 Wav2Lip 模型和新的评估基准,成功地在自由视频中实现了较好的 lip-sync 精度。
Aug, 2020
VideoReTalking 提供一种新的编辑现实中的人物对话视频的系统来生成高质量的、与输入音频同步的视频,其中包括三个连续的步骤:生成具有规范表情的面部视频、音频驱动的口型同步和面部增强。该系统可以处理所有三个步骤,且不需要任何用户干预,适用于任何人物并可以在大规模数据集上获得最高的潜在精度和视觉质量。
Nov, 2022
提出了一种名为 Learn2Talk 的学习框架,该框架可以通过利用 2D 说话面领域的两个专业点来构建更好的 3D 说话面网络,主要关注嘴唇同步、语音感知、音频 - 3D 动作回归网络等方面的研究。
Apr, 2024
本文介绍了 ObamaNet 这一模型,该模型利用全可训练的神经模块,生成新文本的音频文件和同步的逼真唇形视频,其中所涉及的三个主要模块分别是基于 Char2Wav 的文本转语音网络、生成与音频同步的嘴部关键点的时延 LSTM 网络、以及基于 Pix2Pix 的条件渲染视频帧的网络。
Dec, 2017
本文介绍了 StyleLipSync,这是一个基于风格的个性化唇形同步视频生成模型,可从任意音频生成与身份无关的唇形同步视频。模型通过在预先训练的 StyleGAN 的语义丰富潜空间中利用表达性嘴唇先验来生成具有任意身份的视频。与之前的唇形同步方法相比,我们引入了姿态感知掩蔽,通过逐帧使用 3D 参数网格预测器动态定位掩蔽,以提高过帧自然性。此外,我们还提出了一种少量样本的唇形同步适应方法,引入同步正则器来保持唇形同步的泛化性,同时增强个人特定的视觉信息。广泛的实验证明,我们的模型可以生成准确的唇形同步视频,甚至可以在零样本设置下通过拟合少量秒数的目标视频增强看不见的面部特征。
Apr, 2023
该研究提出了 StyleSync,一种有效的框架,通过引入风格空间和特征重构,利用音频的调制卷积来准确地修改嘴的形状,使得目标人物的身份和说话风格能够被准确地保留,从而实现高保真的唇部同步。
May, 2023