TalkCLIP: 文本引导的表情语音生成
提出了一种一次性风格可控的说话人脸生成框架,可以从任意参考说话视频中获得一种说话风格,并将一次性画像驱动为使用参考说话风格和其他音频进行说话。
Jan, 2023
使用自然语言作为情感提示,并结合大规模语言模型构建的数据集,以及基于 CLIP 的模型实现文本和面部表情的语义对齐,从而实现表情丰富且可控制的面部动画生成。
Aug, 2023
通过集成情感风格和艺术风格的文本控制和图像控制条件,我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker,并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。
Mar, 2024
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021
本文提出了一种从单个面部图像与仅含音频的输入生成富有表现力的谈话头像的方法,并能以单一的统一框架中合成艺术绘画、素描、2D 卡通角色、日本漫画和风格化漫画等图像,并通过定量和定性方法的评估以及用户研究,证明其比现有技术的生成头像的质量显着更高。
Apr, 2020
本文提出了一种名为 SpeechCLIP 的新框架,通过图像将语音和文本结合起来,从而改善语音模型的性能,无需直接从转录中进行监督。SpeechCLIP 使用先进的预训练 HuBERT 和 CLIP 模型,并通过配对的图像和口头字幕进行对齐,实现了零样本语音 - 文本检索和语音中关联关键字的提取。
Oct, 2022
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
提出了一种名为 SPEAK 的一次性 Talking Head Generation 框架,通过情感和姿势控制实现与一般 Talking Face Generation 的区别。该方法采用 Inter-Reconstructed Feature Disentanglement (IRFD) 方法将人脸特征解耦为三个潜在空间,并设计了一个面部编辑模块,将语音内容和面部潜在编码修改为单一的潜在空间。进一步,提出了一种新颖的生成器,利用编辑模块生成的修改后的潜在编码来调节情感表达、头部姿势和语音内容,以合成面部动画。大量实验表明,该方法可以生成具有协调的唇部运动、真实的面部情感和平滑的头部运动的逼真说话角色。
May, 2024
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021