从语音中生成自由形式的身体动作
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
Nov, 2023
本文提出一种基于 3D-aware 生成网络、混合嵌入和非线性合成模块的方法,通过显式建模头部运动和面部表情,精心处理 3D 动画以及动态嵌入参考图像,实现了可控、逼真、时序连贯的说话者头像视频,并在多个标准基准测试中表现出优异的结果。
Jul, 2020
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
FreeTalker 是首个生成语音驱动的手势和文本驱动的演讲者动作的框架,使用来自多种动作数据集的异构数据,并利用扩散模型进行训练,以及利用无分类器引导和生成先验以实现平滑剪辑过渡。
Jan, 2024
通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务,利用基于控制信号模态的专门码本,具有可扩展性,能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。
Nov, 2023
该研究提出了名为 PRO-Motion 的拆分与解决框架,由运动规划器、姿势扩散器和动作扩散器三个模块组成,通过指示大型语言模型生成描述目标动作关键姿势的脚本序列,转化为真实的运动,从而实现了从复杂的开放世界提示生成多样且逼真的运动。
Dec, 2023
使用 RGB 视频数据,我们提出了一种基于多模态学习的方法,可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节,并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明,我们的方法具有低重建误差,能够为数字角色产生多样化的面部表情和身体动作。
Jun, 2024
本研究提出了一种基于文本的交谈头视频生成框架,能够按照上下文情感及语音节奏和停顿,合成高保真度的面部表情和头部动作。我们的算法通过两个阶段:一个是针对多个人种实现的通用阶段,一个是基于每一个人的具体情况实现的个性阶段。通过广泛的实验验证,我们的这一算法能够生成高质量、逼真的交谈头视频,且在多项指标上均超过目前领先的技术水平。
Apr, 2021