Freetalker：基于扩散模型的可控语音和文本驱动手势生成以增强演讲者自然度

Jan, 2024

Freetalker：基于扩散模型的可控语音和文本驱动手势生成以增强演讲者自然度

Freetalker: Controllable Speech and Text-Driven Gesture Generation Based on Diffusion Models for Enhanced Speaker Naturalness

PDF

Sicheng Yang, Zunnan Xu, Haiwei Xue, Yongkang Cheng, Shaoli Huang...

TL;DRFreeTalker 是首个生成语音驱动的手势和文本驱动的演讲者动作的框架，使用来自多种动作数据集的异构数据，并利用扩散模型进行训练，以及利用无分类器引导和生成先验以实现平滑剪辑过渡。

Abstract

Current talking avatars mostly generate co-speech gestures based on audio and text of the utterance, without considering the non-speaking motion of the speaker. Furthermore, previous works on co-speech gesture ge

talking avatars co-speech gesture speaker motions diffusion-based model doubletake

发现论文，激发创造

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

C2G2：具有潜在扩散模型的可控共时手势生成

我们提出了一种名为 C2G2 的可控共语手势生成框架，该框架通过捕捉时间潜变信息和应用实用的控制方法来解决现有方法中存在的训练不稳定、时间不一致、高保真度和全面性不足以及对生成手势的说话者身份和时间编辑的缺乏有效控制等问题，通过两阶段的时间依赖增强策略和说话者特定解码器生成与说话者相关的真实长度骨骼以及柔性手势生成 / 编辑的重新上色策略，我们在基准手势数据库上进行了大量实验，验证了我们提出的 C2G2 相对于几种最先进的基准效果。

Aug, 2023

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

CoCoGesture: 在自然环境中实现一致的共同话语 3D 手势生成

我们提出了 CoCoGesture，这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架，通过大规模数据集和预训练模型的优化，在零样本语音转手势生成上表现优于现有方法。

May, 2024

生动演讲者：走向语义感知的共同语言手势生成

通过 LivelySpeaker 框架，我们实现了语义感知的共同语言手势生成，并提供了几个控制手段。我们的方法将任务分解为两个阶段：基于脚本的手势生成和基于音频引导的节奏细化。具体地说，基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导，生成与脚本高度语义对齐的手势。然后，我们设计了一个简单而有效的基于扩散的手势生成骨干，仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合，尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用，例如改变手势风格，通过文本提示编辑共同语言手势，以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外，我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。

Sep, 2023

ConvoFusion: 多模态会话扩散用于同步语音手势合成

ConvoFusion 是一种基于扩散的多模态手势合成方法，通过两个引导目标实现了不同条件模态（例如音频与文本）的调节和重点单词的强调，在生成单语手势和对话式手势方面都具有多用途性。

Mar, 2024

从语音中生成自由形式的身体动作

该论文提出了一种新型的自由形式动作生成模型（FreeMo），通过将共同话语动作分解为姿态模式和节奏动力学，利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成，从而在几个基准测试中展示出优秀的性能。

Mar, 2022

全控制对话人脸生成

论文旨在综合具有可控面部动作的谈话面孔。通过建立规范空间和多模态运动空间，提出正交性约束来分离身份和运动，从而实现生成外观自然、具有完全可控面部属性和准确的唇部同步的谈话面孔。实验证明，我们的方法在视觉质量和唇同步得分方面均取得了最先进的结果。这是第一个开发出在生成的视频中准确地展示包括唇部，头部姿势和眼动等所有目标面部运动的谈话面孔生成框架，没有超越 RGB 视频与音频的任何附加监督。

Apr, 2023