通过零样本表情风格转移使您的语音化形象生动活泼

ICCVAug, 2023

通过零样本表情风格转移使您的语音化形象生动活泼

VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer

Liyang Chen, Zhiyong Wu, Runnan Li, Weihong Bao, Jun Ling...

TL;DR本文提出了一种无监督的变分风格转换模型 (VAST)，以唤醒中性逼真头像的表情。该模型包括三个关键组成部分：从给定的视频提示中提取面部风格表示的风格编码器；用于模拟准确的与语音相关的动作的混合面部表情解码器；用于增强风格空间的变分风格增强器，以提高表达性和寓意性。通过面部风格学习的关键设计，我们的模型能够灵活地从任意视频提示中捕捉表达性的面部风格，并以零样本的方式将其转移到个性化的图像渲染器上。实验结果表明，所提出的方法能够产生更生动、更真实、更丰富表达的说话头像。

Abstract

Current talking face generation methods mainly focus on speech-lip synchronization. However, insufficient investigation on the facial talking style leads to a lifeless and monotonous avatar. Most previous works fail to imitate expressive styles from arbitrary video prompts and ensure t

talking face generation facial talking style unsupervised variational style transfer expressive facial style vivid talking avatar

发现论文，激发创造

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024

面向风格的语音：面至声自然零样本语音合成中面部图像的改进潜在映射

通过面部图像生成声音对于开发能够使用其独特声音进行互动的虚拟人类非常重要，本文介绍了一种基于面部图像而非参考语音生成自然语音的零样本文本到语音合成模型（Face-StyleSpeech），通过结合面部编码器和韵律编码器从面部图像中分别捕捉说话者身份和韵律特征来应对这一挑战，并通过实验结果证明该模型在生成面部图像对应的自然语音方面胜过基准模型，甚至对未训练过的面部图像也有效。

Sep, 2023

StyleTalk：可控话语风格的单镜头说话人生成

提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。

Jan, 2023

真实表演的无监督学习风格感知面部动画

本文提出了一种基于混合形状几何、动态纹理和神经渲染的照片级头部模型的文本 / 语音驱动动画的新方法，该动画方法基于有条件的 CNN 将文本或语音转换为一系列动画参数。

Jun, 2023

基于文本条件的语境化头像生成用于零样本定制化

本文提出了一个零射击的管道，该管道可以通过捕捉用户的身份以令人愉悦的方式进行头像生成，具有个性化的图像生成特征，此外，作者使用大规模图像数据集学习人类 3D 姿态参数，克服了动作捕捉数据集的局限性。

Apr, 2023

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法，通过无监督学习从野外的说话视频中学习特征，可以模仿任意视频中的任意风格，并且可以生成新的样式，实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。

Oct, 2021

为面部注入生命：利用自然头部姿势和详细形状进行由语音驱动的 3D 面部动画

VividTalker 是一个新框架，旨在辅助具有灵活头部姿势和自然面部细节的以语音驱动的 3D 面部动画，通过将面部动画显式地分解为头部姿势和口腔运动，并将其单独编码为离散潜在空间，然后利用基于窗口的 Transformer 架构通过自回归过程生成这些特征。在与语音内容一致的情况下，使用新的 3D 数据集构建了具有详细形状的面部细节合成并学习。广泛的定量和定性实验证明，VividTalker 胜过了现有最先进的方法，实现了生动逼真的以语音驱动的 3D 面部动画。

Oct, 2023

StyleAvatar：通过单个视频实时生成逼真肖像头像

该论文提出了一种使用 StyleGAN 网络的实时照片级写实肖像化重建方法，可在忠实表情控制下生成高保真肖像化头像，并通过引入组合表示和滑动窗口增强方法将其能力扩展到全身视频生成，使训练和应用的表现和效率得到了提高。

May, 2023