QPGesture: 自然语音驱动手势生成的基于量化和相位引导的运动匹配
使用生成对抗网络和量化流水线预训练局部姿态序列,为生成和重构手势提供基础,从而更准确地模拟人类运动和行为,取得了比现有方法更好的效果,并公开了数据管道和生成框架。
May, 2023
本研究旨在解决语音驱动的共同语言手势图像序列生成问题,提出了一种名为 ANGIE 的框架,使用向量量化运动提取器和共同语言 GPT,以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化,从而实现高保真度的图像序列生成。
Dec, 2022
针对语音对应手势模型中存在的多种可能性及冲突问题,本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题,并使用自回归变换器模型学习手势生成的先验分布,经用户考核后证明本方法生成的手势具有更加逼真和多样性。
Mar, 2023
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。
Sep, 2023
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024
通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分,结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器,从而更加真实和多样的生成语音到动作的映射。
Aug, 2021