GENEA 挑战赛 2022 的 ReprGesture 参赛作品
通过 DiffuseStyleGesture + 模型,本论文介绍了一种用于生成对话手势的非语言行为的生成和评估的解决方案。该模型利用扩散模型自动生成手势,通过音频、文本、说话者 ID 和种子手势等多种模态对隐藏空间进行映射和处理,在 GENEA Challenge 中展示了与顶尖模型相当的表现,完成了生成逼真且适合特定语音的手势的目标。
Aug, 2023
GENEA Challenge 2023 通过对言语和动作数据集的评估,对参与的团队构建的基于言语驱动的手势生成系统进行了研究。研究聚焦于人类动作的相似性、动作的合适性以及与互动者行为的适应性,并发现虽然有些系统接近人类涉入,但大多数系统仍然远远落后于自然运动。
Aug, 2023
本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。
Sep, 2023
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”,通过原始语音音频产生个体化和风格化的全身共说手势,消除了复杂的多模态处理和手动注释的需求,实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。
Aug, 2023
本文提出了一种基于多模态预训练编码器的共话手势生成方法,该方法通过自监督学习训练基于多头注意力的编码器以包含每种模态的信息,从而实现即使在输入模态缺失或存在噪声时,仍能生成逼真的共话手势。
May, 2023
本文介绍了一种基于深度学习的模型,该模型将语音的声学和语义表示作为输入,生成关节角度旋转序列作为输出,可以产生任意节拍和语义手势。
Jan, 2020
本文提出了一种新颖的基于语音驱动的手势生成框架,可用于虚拟代理以增强人机交互,并通过深度学习和表示学习,对不同输入输出的网络提供了客观和主观的评估以及消除运动抖动的后处理措施。
Jul, 2020
介绍了一种使用基于变压器的学习方法来生成虚拟代理与自然语言输入对应的带有情感表达的全身手势的方法,通过使用生物力学的特征和考虑目标虚拟代理的性别和利手性,该方法能以交互性的速度在图形处理器上产生实时且富有表现力的手势,经过网页用户研究,其生成的手势在趋向性和情感上与预期高度吻合。
Jan, 2021