本文提出了一种新的自动化语音驱动姿势生成框架,适用于人 - 代理交互,包括虚拟代理和机器人,并首次将表示学习应用于语音驱动姿势生成。
Mar, 2019
我们提出了 CoCoGesture,这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架,通过大规模数据集和预训练模型的优化,在零样本语音转手势生成上表现优于现有方法。
May, 2024
本文提出了一种新颖的基于语音驱动的手势生成框架,可用于虚拟代理以增强人机交互,并通过深度学习和表示学习,对不同输入输出的网络提供了客观和主观的评估以及消除运动抖动的后处理措施。
Jul, 2020
利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势,面部表情和语音生成,同时创造出三维身体、手部和面部数据,并利用多模态的 3D 姿态估计技术和训练,实现更加自然流畅的合成动画。
Feb, 2021
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
本文提出了一种基于学习深度先验的新型 3D 手部形态综合和估计方法,其中利用了身体运动和手势之间的相关性,采用网络进行 3D 手部姿态估计训练并得到了优良的效果。
为了实现逼真的 3D 共语手势,我们提出了一种基于 ChatGPT-4 的弱监督训练策略,通过情感过渡、协调转换手势、混合情感机制以及关键帧抽样等方法,成功地构建了新的情感过渡任务和数据集,并在实验证明了我们的方法优于现有的单一情感条件模型。
Nov, 2023
提出了一种基于变分变压器的新型自动化从语音中合成的三维体手势的框架,通过学习语音和三维手势之间的映射,使用概率分布生成多样化的手势,并通过预训练方案解决数据稀缺性问题,结果显示比现有方法产生更逼真、更恰当和更多样化的身体手势。
Sep, 2023
本文介绍了一种基于生成对抗网络的 3D 姿势序列综合方法,通过合适的情感表达来综合共语上半身手势姿势。
Jul, 2021