通过运动解耦扩散模型生成共说手势视频

CVPRApr, 2024

通过运动解耦扩散模型生成共说手势视频

Co-Speech Gesture Video Generation via Motion-Decoupled Diffusion Model

Xu He, Qiaochu Huang, Zhensong Zhang, Zhiwei Lin, Zhiyong Wu...

TL;DR本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Abstract

co-speech gestures, if presented in the lively form of videos, can achieve superior visual effects in human-machine interaction. While previous works mostly generate structural human skeletons, resulting in the omission of appearance information, we focus on the direct generation of

co-speech gestures audio-driven motion-decoupled framework temporal correlation refinement network

发现论文，激发创造

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022

EMoG：使用扩散模型合成情感共同语言三维手势

本文提出了一种通过加入情感线索指导生成过程、将难以生成的姿态生成分解为关节相关性建模和时间动力学建模两个子问题，然后分别使用提出的 JCFormer 模型来明确地解决子问题的新型框架 EMoG，该方法在手势合成方面表现优异，超过了以前的现有方法。

Jun, 2023

C2G2：具有潜在扩散模型的可控共时手势生成

我们提出了一种名为 C2G2 的可控共语手势生成框架，该框架通过捕捉时间潜变信息和应用实用的控制方法来解决现有方法中存在的训练不稳定、时间不一致、高保真度和全面性不足以及对生成手势的说话者身份和时间编辑的缺乏有效控制等问题，通过两阶段的时间依赖增强策略和说话者特定解码器生成与说话者相关的真实长度骨骼以及柔性手势生成 / 编辑的重新上色策略，我们在基准手势数据库上进行了大量实验，验证了我们提出的 C2G2 相对于几种最先进的基准效果。

Aug, 2023

CoCoGesture: 在自然环境中实现一致的共同话语 3D 手势生成

我们提出了 CoCoGesture，这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架，通过大规模数据集和预训练模型的优化，在零样本语音转手势生成上表现优于现有方法。

May, 2024

使用离散手势令牌学习来进行共同语音手势合成

针对语音对应手势模型中存在的多种可能性及冲突问题，本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题，并使用自回归变换器模型学习手势生成的先验分布，经用户考核后证明本方法生成的手势具有更加逼真和多样性。

Mar, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

Diff-TTSG: 去噪概率综合语音和手势合成

本文介绍了第一个联合学习合成语音和手势的扩散式概率模型 Diff-TTSG，并提供了多种单模态和多模态主观测试来评估系统，结果表明本方法能够在小数据集上进行训练，同时提高了合成质量。

Jun, 2023

语音驱动模板：基于学习的模板实现共语手势合成

本文提出了一种基于手势模板和语音音频的共同生成手势序列方法，使用嘴唇同步误差作为代理度量来调整和评估模型的同步能力，通过对齐生成的手势序列和语音音频的同步性评估表明该方法在保真度和同步性方面能够获得更好的客观和主观评价。

Aug, 2021