BEAT：面向对话手势合成的大规模语义和情感多模态数据集

ECCVMar, 2022

BEAT：面向对话手势合成的大规模语义和情感多模态数据集

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

Haiyang Liu, Zihao Zhu, Naoya Iwamoto, Yichen Peng, Zhengqing Li...

TL;DR使用多模态数据构建最大的动作捕捉数据集 BEAT，探究人体动作相关性以及语义相关性建立基于 CaMN 的愉悦对话姿态综合模型，并且提出了语义相关性手势回溯指标 SRGR。

Abstract

Achieving realistic, vivid, and human-like synthesized conversational gestures conditioned on multi-modal data is still an unsolved problem due to the lack of available datasets, models and standard evaluation metrics. To address this, we build Body-Expression-Audio-Text dataset, BEAT,

conversational gestures multi-modal data beat dataset semantic relevance motion capture dataset

发现论文，激发创造

SGED：脉冲手势情感识别性能评估基准数据集

本论文提出了一种基于伪双流网络的新的手势情感识别数据集，通过使用多模式信息的互补性来提高模型和算法的性能，并验证了其在情感计算领域中的应用潜力。

Apr, 2023

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

EMAGE: 通过掩码音频手势建模实现统一的整体共时手势生成

提出了 EMAGE 框架，从音频和掩码手势生成全身人体动作，包括面部、局部身体、手部和整体运动。该框架利用了 BEATX 数据集和掩码手势先验知识，通过联合训练实现音频生成手势和掩码手势重建，生成与音频同步的全面动作。

Dec, 2023

Gesticulator: 一个语义感知的语音驱动手势生成框架

本文介绍了一种基于深度学习的模型，该模型将语音的声学和语义表示作为输入，生成关节角度旋转序列作为输出，可以产生任意节拍和语义手势。

Jan, 2020

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024

eMotions：一份用于短视频情绪识别的大规模数据集

现今，短视频对于信息获取和分享至关重要。鉴于短视频情感数据的缺乏，我们介绍了一个大规模的数据集，名为 eMotions，包含 27996 个视频。我们通过优化人员分配和多阶段注释来减轻主观因素对标签质量的影响。另外，我们通过有针对性的数据采样提供了类别平衡和面向测试的变体。我们提出了一种端到端的基线方法 AV-CPNet，采用视频 Transformer 来更好地学习语义相关表示。我们进一步设计了两阶段的跨模态融合模块，来补充地建模音视频特征之间的相关性。然后，我们应用了包含三种情感极性的 EP-CE 损失来指导模型优化。对于九个数据集的广泛实验结果验证了 AV-CPNet 的有效性。数据集和代码将在此 https URL 开放。

Nov, 2023

跨模态音乐处理的带语义注释的 Mosa 数据集

本文介绍了 MOSA（Music mOtion with Semantic Annotation）数据集，它包含由 23 位专业音乐家演奏的 742 个专业音乐表演的高质量三维运动捕捉数据，与音频录音及音高、节拍、乐句、动态、演奏和和谐等音符级的语义注释，是迄今为止最大的音乐领域的交互式数据集。数据集的用途在于交叉模态音乐信息检索（MIR）和音乐内容生成任务，包括从音频、视频和运动数据中检测节拍、下拍、乐句和表现内容，并根据给定的音乐音频生成音乐家的身体动作。数据集和代码可在本文所附网址中获取。

Jun, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

ConvoFusion: 多模态会话扩散用于同步语音手势合成

ConvoFusion 是一种基于扩散的多模态手势合成方法，通过两个引导目标实现了不同条件模态（例如音频与文本）的调节和重点单词的强调，在生成单语手势和对话式手势方面都具有多用途性。

Mar, 2024

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023