StyleTalk:可控话语风格的单镜头说话人生成
本文提出了一种基于自然语言描述的表情可控一镜到底对话头生成方法 TalkCLIP。该方法通过引入 CLIP-based 风格编码器,将自然语言描述映射到口型样式表示中进行对齐,并能够生成受文本描述引导的具有生动面部表情的逼真谈话头。
Apr, 2023
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024
通过集成情感风格和艺术风格的文本控制和图像控制条件,我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker,并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。
Mar, 2024
本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法,通过无监督学习从野外的说话视频中学习特征,可以模仿任意视频中的任意风格,并且可以生成新的样式,实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。
Oct, 2021
本文提出了一种新模型,通过利用自监督学习技术和三维人脸模型中的标志点来对运动进行建模,并引入了新的运动感知多尺度特征对齐模块来进行视频合成,从而实现了对头部姿态和表情的自由控制,并且得到了最优质的合成音频视频输出。
Apr, 2023
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
这篇论文提出了 DiffPoseTalk,一种基于扩散模型和风格编码器的生成框架,该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成,并通过利用语音和风格进行生成过程的指导,进而提高用户感知。此外,作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练,解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明,该方法优于现有的方法。将会公开发布代码和数据集。
Sep, 2023
通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要,本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型(Face-StyleSpeech),通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战,并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型,甚至对未训练过的面部图像也有效。
Sep, 2023
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间,提出正交性约束来分离身份和运动,从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明,我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部,头部姿势和眼动等所有目标面部运动的谈话面孔生成框架,没有超越 RGB 视频与音频的任何附加监督。
Apr, 2023