Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

Jun, 2024

Speech2UnifiedExpressions: 从可负担的输入同步合成言语情感表情、面部表情和身体表情

Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs

PDF

Uttaran Bhattacharya, Aniket Bera, Dinesh Manocha

TL;DR使用 RGB 视频数据，我们提出了一种基于多模态学习的方法，可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节，并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明，我们的方法具有低重建误差，能够为数字角色产生多样化的面部表情和身体动作。

Abstract

We present a multimodal learning-based method to simultaneously synthesize co-speech facial expressions and upper-body gestures for

multimodal learning co-speech facial expressions upper-body gestures digital characters video data

发现论文，激发创造

Speech2AffectiveGestures: 利用生成对抗情感表达学习合成共语手势

本文介绍了一种基于生成对抗网络的 3D 姿势序列综合方法，通过合适的情感表达来综合共语上半身手势姿势。

Jul, 2021

从视频中学习基于语音的 3D 对话手势

利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势，面部表情和语音生成，同时创造出三维身体、手部和面部数据，并利用多模态的 3D 姿态估计技术和训练，实现更加自然流畅的合成动画。

Feb, 2021

情感对话：赋能连贯表情、凝视和姿态生成的交流面孔

通过自我监督学习，我们提出了一个两阶段的音频驱动对话人物生成框架，利用 3D 面部特征点作为中间变量，以实现表情、注视和头部姿势的合作对齐，并映射到预训练模型中以生成高质量人脸图像。

Jun, 2024

CSTalk: 协作监督的语音驱动 3D 情感面部动画生成

本研究提出了一种名为 CSTalk 的方法，通过建模面部运动不同区域之间的相关性并监督生成模型的训练，生成符合人脸运动模式的真实表情，解决了语音驱动的 3D 面部动画技术中面临的数据限制、唇部对齐以及面部表情自然度等挑战，实验结果表明我们的方法优于现有最先进的方法。

Apr, 2024

BodyFormer：基于 Transformer 的语义引导的三维身体手势合成

提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架，通过学习语音和三维手势之间的映射，使用概率分布生成多样化的手势，并通过预训练方案解决数据稀缺性问题，结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。

Sep, 2023

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

基于文本的情感和节奏对话头生成

本研究提出了一种基于文本的交谈头视频生成框架，能够按照上下文情感及语音节奏和停顿，合成高保真度的面部表情和头部动作。我们的算法通过两个阶段：一个是针对多个人种实现的通用阶段，一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证，我们的这一算法能够生成高质量、逼真的交谈头视频，且在多项指标上均超过目前领先的技术水平。

Apr, 2021

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

面部说话：从文本中联合合成说话脸部和语音

利用文本生成自然的说话面部表情和语音输出，通过将 Talking Face Generation (TFG) 和 Text-to-Speech (TTS) 系统整合到一个统一框架中，在解决头部姿态生成和声音一致性等挑战的同时，实现了高质量的运动代码生成和均匀语音输出。

May, 2024