DiffSHEG: 基于扩散的实时语音驱动全面的 3D 表情和手势生成
本文提出了一种通过加入情感线索指导生成过程、将难以生成的姿态生成分解为关节相关性建模和时间动力学建模两个子问题,然后分别使用提出的 JCFormer 模型来明确地解决子问题的新型框架 EMoG,该方法在手势合成方面表现优异,超过了以前的现有方法。
Jun, 2023
本研究提出了 Diffusion Co-Speech Gesture(DiffGesture)框架,该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性, 通过弥散模型的设计思路, DiffGesture 可以在质量和多样性之间进行平衡,实现了高保真的音频驱动共话手势生成。
Mar, 2023
本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。
Sep, 2023
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
本文介绍了第一个联合学习合成语音和手势的扩散式概率模型 Diff-TTSG,并提供了多种单模态和多模态主观测试来评估系统,结果表明本方法能够在小数据集上进行训练,同时提高了合成质量。
Jun, 2023
通过 DiffuseStyleGesture + 模型,本论文介绍了一种用于生成对话手势的非语言行为的生成和评估的解决方案。该模型利用扩散模型自动生成手势,通过音频、文本、说话者 ID 和种子手势等多种模态对隐藏空间进行映射和处理,在 GENEA Challenge 中展示了与顶尖模型相当的表现,完成了生成逼真且适合特定语音的手势的目标。
Aug, 2023
用 FaceDiffuser 生成非确定性的深度学习模型,基于扩散技术和 HuBERT 预训练模型对音频输入进行编码,用于生成语音驱动的三维面部动画合成。
Sep, 2023
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
我们提出了一种创新方法,结合前沿的扩散模型来进行 3D 人体姿势估计(3D-HPE),并展示了扩散模型提高人体姿势估计的准确性、稳健性和一致性的能力。使用 Human 3.6M 数据集,我们证明了该方法的有效性,并展示了其在面对遮挡、改善时间相干性和冠状面对称性方面的优势。我们的研究结果表明,独立的扩散模型能提供出色的性能,而与监督模型结合使用,它们的准确性更高,为 3D-HPE 研究开辟了新的激动人心的领域。
Sep, 2023
我们提出了一种名为 C2G2 的可控共语手势生成框架,该框架通过捕捉时间潜变信息和应用实用的控制方法来解决现有方法中存在的训练不稳定、时间不一致、高保真度和全面性不足以及对生成手势的说话者身份和时间编辑的缺乏有效控制等问题,通过两阶段的时间依赖增强策略和说话者特定解码器生成与说话者相关的真实长度骨骼以及柔性手势生成 / 编辑的重新上色策略,我们在基准手势数据库上进行了大量实验,验证了我们提出的 C2G2 相对于几种最先进的基准效果。
Aug, 2023