SpeechAct: 从语音生成全身动作
该论文提出了一种新型的自由形式动作生成模型(FreeMo),通过将共同话语动作分解为姿态模式和节奏动力学,利用两条流架构实现姿态的多样性生成和语音韵律同步的节奏动力学合成,从而在几个基准测试中展示出优秀的性能。
Mar, 2022
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
通过量化多种身体部位的运动为其各自领域定制的码本,利用预训练模型将多模态信号转换为共享的潜在空间,并通过逐步预测后续令牌形成完整序列来将这些信号转换成离散的运动令牌,最后从令牌序列中重构连续的实际运动。我们的研究方法将多模态动作生成挑战框架定义为令牌预测任务,利用基于控制信号模态的专门码本,具有可扩展性,能够轻松整合新的模态。广泛的实验证明了我们设计的有效性并强调了其广泛应用的潜力。
Nov, 2023
本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务,有效地减少了跨模态映射的不确定性,从而提高了生成的运动的生动性,并且通过使用一个自动回归模型,演示了我们方法在视觉和感知质量上均优于当前最先进的方法。
Jan, 2023
通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分,结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器,从而更加真实和多样的生成语音到动作的映射。
Aug, 2021
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
本篇研究提出了一种新方法,通过音频输入生成 3D 说话人头部动画,并利用面部的传动部位上的控制点来描述语音相关的运动,并利用两个不同的模型来实现;该方法具有身份不相关性,可实现任何用户的高质量面部动画。利用陆标在 3D 说话人头部动画生成中提供了各种优点,例如一致性,可靠性和不需要手动注释。
Jun, 2023