Speech2AffectiveGestures: 利用生成对抗情感表达学习合成共语手势
使用 RGB 视频数据,我们提出了一种基于多模态学习的方法,可以同时合成数字角色的共语言面部表情和上半身动作。我们的方法从视频数据直接估计稀疏的面部关键点和上半身关节,并根据说话者的面部动作和身体关节动作合成合适的情感角色动作。通过对多个评估指标进行全面定量和定性实验证明,我们的方法具有低重建误差,能够为数字角色产生多样化的面部表情和身体动作。
Jun, 2024
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势,面部表情和语音生成,同时创造出三维身体、手部和面部数据,并利用多模态的 3D 姿态估计技术和训练,实现更加自然流畅的合成动画。
Feb, 2021
本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。
Sep, 2023
介绍了一种使用基于变压器的学习方法来生成虚拟代理与自然语言输入对应的带有情感表达的全身手势的方法,通过使用生物力学的特征和考虑目标虚拟代理的性别和利手性,该方法能以交互性的速度在图形处理器上产生实时且富有表现力的手势,经过网页用户研究,其生成的手势在趋向性和情感上与预期高度吻合。
Jan, 2021
为了实现逼真的 3D 共语手势,我们提出了一种基于 ChatGPT-4 的弱监督训练策略,通过情感过渡、协调转换手势、混合情感机制以及关键帧抽样等方法,成功地构建了新的情感过渡任务和数据集,并在实验证明了我们的方法优于现有的单一情感条件模型。
Nov, 2023
针对语音对应手势模型中存在的多种可能性及冲突问题,本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题,并使用自回归变换器模型学习手势生成的先验分布,经用户考核后证明本方法生成的手势具有更加逼真和多样性。
Mar, 2023
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024