为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

MMOct, 2021

为实现逼真的音频驱动的说话人脸合成而模仿任意说话风格

Imitating Arbitrary Talking Style for Realistic Audio-DrivenTalking Face Synthesis

Haozhe Wu, Jia Jia, Haoyu Wang, Yishun Dou, Chao Duan...

TL;DR本文提出了一种基于 3D 可变形模型统计参数的语音驱动说话人脸合成方法，通过无监督学习从野外的说话视频中学习特征，可以模仿任意视频中的任意风格，并且可以生成新的样式，实验证明此方法相比基线方法能够更自然、更具表现力地合成说话风格。

Abstract

People talk with diversified styles. For one piece of speech, different talking styles exhibit significant differences in the facial and head pose movements. For example, the "excited" style usually talks with the mouth wide open, while the "solemn" style is more standardized and seldomly exhibits exaggerated motions. Due to such huge differences between dif

talking style audio-driven talking face synthesis 3d morphable model unsupervised learning expressive talking styles

发现论文，激发创造

DiffPoseTalk: 基于扩散模型的语音驱动风格化 3D 面部动画和头部姿态生成

这篇论文提出了 DiffPoseTalk，一种基于扩散模型和风格编码器的生成框架，该框架通过从短参考视频中提取风格嵌入来辅助面部动画生成，并通过利用语音和风格进行生成过程的指导，进而提高用户感知。此外，作者还通过对高质量、真实场景下的音频 - 视觉数据集中重建的 3DMM 参数进行训练，解决了扫描 3D 说话脸数据不足的问题。丰富的实验和用户研究表明，该方法优于现有的方法。将会公开发布代码和数据集。

Sep, 2023

StyleTalk：可控话语风格的单镜头说话人生成

提出了一种一次性风格可控的说话人脸生成框架，可以从任意参考说话视频中获得一种说话风格，并将一次性画像驱动为使用参考说话风格和其他音频进行说话。

Jan, 2023

Mimic：语音驱动三维面部动画的说话风格解耦

通过创新的说话风格解缠方法，我们提出了一种名为躺椅的新框架，用于学习面部运动的解缠表示，并通过建立风格和内容的二个潜在空间来实现任意主题说话风格的编码，从而实现更真实的语音驱动面部动画的合成。

Dec, 2023

高分辨率情感和艺术风格的生成对话模型

通过集成情感风格和艺术风格的文本控制和图像控制条件，我们提出了一种创新的声音驱动的说话人生成方法称为 Style2Talker，并使用大规模预训练模型自动对现有音频 - 视觉数据集进行情感文本标注。我们的方法在语音嘴唇同步性、情感风格和艺术风格方面的性能优于现有的最先进方法。

Mar, 2024

个性化的语音驱动的具有风格控制的表情生成功能的三维面部动画合成

通过建模特定身份的面部动作为潜在表示（称为样式），并在各种情感类别的语音输入中合成具有目标样式的新动画，我们提出了一种个性化语音驱动的富有表现力的 3D 面部动画综合框架。

Oct, 2023

AVI-Talking：学习音频 - 视觉指令用于表情丰富的 3D 说话脸生成

利用大型语言模型指导实现具有表情细节合成能力的说话人脸生成系统，通过先理解语音信息并生成指令，再执行这些指令生成具有表情运动的生动说话人脸，实验证明该方法有效且具有一致的情感状态。

Feb, 2024

基於實境影像的音頻驅動 3D 臉部動畫

本文提出了一种基于 2D 口型视频和 3D 面部重构方法训练的 3D 面部动画模型，该模型具有良好的泛化能力和包括口型同步在内的高保真度，能够捕捉不同个体的讲话风格并输出个性化的 3D 说话头像，经实验证明其优越性。

Jun, 2023

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

隐式模块化音视表示的姿态可控说话面孔生成

本文提出了一种简洁而有效的框架来生成姿势可控的对话脸，通过使用隐式低维姿势代码对原始面部图像进行操作，实现语音和头部姿势信息的联合非身份嵌入空间，通过调制卷积重建框架，在极端视角稳健的情况下生成准确的唇形同步会话，并具有多种先进功能，例如对话面部前视。

Apr, 2021

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023