从语音生成说话脸部标记
本篇研究提出了一种新方法,通过音频输入生成 3D 说话人头部动画,并利用面部的传动部位上的控制点来描述语音相关的运动,并利用两个不同的模型来实现;该方法具有身份不相关性,可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点,例如一致性,可靠性和不需要手动注释。
Jun, 2023
本文提出了使用已有的人脸标记检测器生成时间 - 频率蒙版来提高多人交谈环境下的语音增强过程,其结果表明,我们的模型是在有限的 GRID 和 TCD-TIMIT 数据集上进行培训和评估的首个能够实现在多人交谈环境中实现独立于发言人的语音增强的模型。
Nov, 2018
提出了一种两阶段方法以生成更逼真、口型同步和较好地保留身份信息的谈话面部视频。第一阶段利用基于 Transformer 的关键点生成器从音频中提取嘴唇和下颌关键点,并根据说话人的脸部轮廓调整生成的关键点。在第二阶段中,视频渲染模型将关键点转换为面部图像,并利用静态参考图像中的先前外观信息生成更逼真的视觉内容。
May, 2023
通过自我监督学习,我们提出了一个两阶段的音频驱动对话人物生成框架,利用 3D 面部特征点作为中间变量,以实现表情、注视和头部姿势的合作对齐,并映射到预训练模型中以生成高质量人脸图像。
Jun, 2024
提出一种统一的面部标记生成器(Unified facial landmark generator),利用端到端的文本到语音不仅用于合成语音,还用于提取一系列与文本和语音共同的潜在表示,将其馈送至标记解码器以生成面部标记,并演示这个系统在语音合成和面部地标生成方面比最先进的基于文本的方法具有更高的真实性,可以从没有面部视频数据甚至语音数据的演讲者的语音中生成面部特征点。
Feb, 2023
本文提出了一种端到端的深度学习方法,用于从音频中实时生成面部动画,采用了深度双向长短时记忆网络和注意力机制识别语音中的上下文信息的潜在表示,并自动推断不同水平的面部动作,并随着输入音频中的相应音高和潜在说话风格保持一致,无需预设或进一步的人类干预,评估结果表明,我们的方法不仅能够从音频中生成准确的嘴唇运动,还能成功回归说话人的时间变化的面部运动。
May, 2019
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
该论文介绍了一种新的语音识别方法:LipFormer,它使用了视觉和标记反映的多模态特征,使得它能够对不同的嘴唇颜色和形状产生的可见变化具有鲁棒性,并且在未知的发言人上表现出出色的泛化性能。
Feb, 2023
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023