从文本、音频、说话者身份的三模态上下文生成言语手势
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。
Aug, 2023
本文介绍了一种基于深度学习的模型,该模型将语音的声学和语义表示作为输入,生成关节角度旋转序列作为输出,可以产生任意节拍和语义手势。
Jan, 2020
本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作,通过训练无标签视频并将我们的模型与基准方法进行量化比较,证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法,并且我们发布了一个大型的视频数据集以支持研究。
Jun, 2019
EmotionGesture 是一种从音频生成真实共语手势的新型框架,其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征,并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示,然后再用转换器模型生成 3D 共语手势,并通过运动平滑性添加稳定性来提高性能,并能够通过情感条件 VAE 生成丰富多样的情感结果。
May, 2023
我们提出了一个框架,用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频,我们输出一个人的多个姿势动作可能性,包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合,以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作,能够表达姿势中的重要细微之处(如冷笑和假笑)。为了促进这项研究,我们介绍了一种首次出现的多视角对话数据集,可以进行逼真的重建。实验证明,我们的模型生成了适当且多样化的姿势动作,优于仅使用扩散或仅使用向量量化的方法。此外,我们的感知评估突出了逼真(与网格)对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。
Jan, 2024
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。
Sep, 2023
本研究旨在解决语音驱动的共同语言手势图像序列生成问题,提出了一种名为 ANGIE 的框架,使用向量量化运动提取器和共同语言 GPT,以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化,从而实现高保真度的图像序列生成。
Dec, 2022
本文提出了一种名为 HA2G 的新框架,用于语音一致的身体和手势动作的生成。HA2G 使用分层音频学习器和分层姿势推理器提取并逐层渲染全身姿势,同时基于音频文本对齐的对比学习策略提高音频表示的质量,结果表明该方法生成的共语手势更逼真,比以往方法有更高的性能表现。
Mar, 2022
我们提出了 CoCoGesture,这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架,通过大规模数据集和预训练模型的优化,在零样本语音转手势生成上表现优于现有方法。
May, 2024