基于扩散的联合文本和音频表征的共语言手势生成

Sep, 2023

基于扩散的联合文本和音频表征的共语言手势生成

Diffusion-Based Co-Speech Gesture Generation Using Joint Text and Audio Representation

Anna Deichler, Shivam Mehta, Simon Alexanderson, Jonas Beskow

TL;DR本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Abstract

This paper describes a system developed for the GENEA (Generation and Evaluation of Non-verbal Behaviour for Embodied Agents) Challenge 2023. Our solution builds on an existing diffusion-based motion synthesis model. We propose a →

genea challenge 2023 motion synthesis model contrastive speech and motion pretraining co-speech gesture generation human-likeness

发现论文，激发创造

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

EMoG：使用扩散模型合成情感共同语言三维手势

本文提出了一种通过加入情感线索指导生成过程、将难以生成的姿态生成分解为关节相关性建模和时间动力学建模两个子问题，然后分别使用提出的 JCFormer 模型来明确地解决子问题的新型框架 EMoG，该方法在手势合成方面表现优异，超过了以前的现有方法。

Jun, 2023

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

音频全能化：使用 WavLM 预训练模型的语音驱动手势合成

该研究介绍了使用 WavLM 预训练模型的 speech-conditional diffusion-based 和 non-autoregressive transformer-based 生成模型 “diffmotion-v2”，通过原始语音音频产生个体化和风格化的全身共说手势，消除了复杂的多模态处理和手动注释的需求，实现了低级和高级音频信息的提取及语音信息与共说手势之间的关系学习。在多个数据集上进行了大量评估实验以验证 WavLM 和模型合成具有不同风格的自然共说手势的能力。

Aug, 2023

ConvoFusion: 多模态会话扩散用于同步语音手势合成

ConvoFusion 是一种基于扩散的多模态手势合成方法，通过两个引导目标实现了不同条件模态（例如音频与文本）的调节和重点单词的强调，在生成单语手势和对话式手势方面都具有多用途性。

Mar, 2024

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

GENEA Challenge 2023 的 DiffuseStyleGesture + 参赛方案

通过 DiffuseStyleGesture + 模型，本论文介绍了一种用于生成对话手势的非语言行为的生成和评估的解决方案。该模型利用扩散模型自动生成手势，通过音频、文本、说话者 ID 和种子手势等多种模态对隐藏空间进行映射和处理，在 GENEA Challenge 中展示了与顶尖模型相当的表现，完成了生成逼真且适合特定语音的手势的目标。

Aug, 2023

2023 年 GENEA 挑战赛：单一和双方情境中的手势生成模型的大规模评估

GENEA Challenge 2023 通过对言语和动作数据集的评估，对参与的团队构建的基于言语驱动的手势生成系统进行了研究。研究聚焦于人类动作的相似性、动作的合适性以及与互动者行为的适应性，并发现虽然有些系统接近人类涉入，但大多数系统仍然远远落后于自然运动。

Aug, 2023

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

Diff-TTSG: 去噪概率综合语音和手势合成

本文介绍了第一个联合学习合成语音和手势的扩散式概率模型 Diff-TTSG，并提供了多种单模态和多模态主观测试来评估系统，结果表明本方法能够在小数据集上进行训练，同时提高了合成质量。

Jun, 2023