QPGesture: 自然语音驱动手势生成的基于量化和相位引导的运动匹配

CVPRMay, 2023

QPGesture: 自然语音驱动手势生成的基于量化和相位引导的运动匹配

QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation

Sicheng Yang, Zhiyong Wu, Minglei Li, Zhensong Zhang, Lei Hao...

TL;DR介绍一种基于量化的、相位引导的运动匹配框架，该框架中使用语音量化作为情感相似性，从而更新语音和姿势之间的对齐问题，相位引导语音与动作匹配，较好地处理基于语音的手势生成。

Abstract

speech-driven gesture generation is highly challenging due to the random jitters of human motion. In addition, there is an inherent asynchronous relationship between human speech and gestures. To tackle these challenges, we introduce a novel →

speech-driven gesture generation quantization-based motion-matching levenshtein distance phase-guided

发现论文，激发创造

AQ-GT：一个用于共语手势合成的时间对齐和量化的 GRU-Transformer

使用生成对抗网络和量化流水线预训练局部姿态序列，为生成和重构手势提供基础，从而更准确地模拟人类运动和行为，取得了比现有方法更好的效果，并公开了数据管道和生成框架。

May, 2023

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022

使用离散手势令牌学习来进行共同语音手势合成

针对语音对应手势模型中存在的多种可能性及冲突问题，本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题，并使用自回归变换器模型学习手势生成的先验分布，经用户考核后证明本方法生成的手势具有更加逼真和多样性。

Mar, 2023

基于音频的神经手势再现与视频运动图的应用

该论文提供了一种利用语音内容匹配身体动作的视频再现方法，通过剪辑、组合、动作建模、音频节奏搜索等技术，实现了更高质量和一致性的视频合成。

Jul, 2022

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

生动演讲者：走向语义感知的共同语言手势生成

通过 LivelySpeaker 框架，我们实现了语义感知的共同语言手势生成，并提供了几个控制手段。我们的方法将任务分解为两个阶段：基于脚本的手势生成和基于音频引导的节奏细化。具体地说，基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导，生成与脚本高度语义对齐的手势。然后，我们设计了一个简单而有效的基于扩散的手势生成骨干，仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合，尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用，例如改变手势风格，通过文本提示编辑共同语言手势，以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外，我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。

Sep, 2023

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

朝着变量和协调的整体语音运动生成

通过 ProbTalk 的统一概率框架，以综合协调性和可变性为核心，生成自然多样的整体语音运动，从而比现有方法在质量和数量上都实现了更高的真实度。

Mar, 2024

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021