基于语音的手势生成输入输出特征分析
本文提出了一种新颖的基于语音驱动的手势生成框架,可用于虚拟代理以增强人机交互,并通过深度学习和表示学习,对不同输入输出的网络提供了客观和主观的评估以及消除运动抖动的后处理措施。
Jul, 2020
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势,面部表情和语音生成,同时创造出三维身体、手部和面部数据,并利用多模态的 3D 姿态估计技术和训练,实现更加自然流畅的合成动画。
Feb, 2021
通过使用混合点表示,并结合对比运动学习方法,本研究提出了一种从语音中生成全身动作的模型,以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。
Nov, 2023
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
本文提出了一种基于多模态预训练编码器的共话手势生成方法,该方法通过自监督学习训练基于多头注意力的编码器以包含每种模态的信息,从而实现即使在输入模态缺失或存在噪声时,仍能生成逼真的共话手势。
May, 2023
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
本研究旨在解决语音驱动的共同语言手势图像序列生成问题,提出了一种名为 ANGIE 的框架,使用向量量化运动提取器和共同语言 GPT,以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化,从而实现高保真度的图像序列生成。
Dec, 2022