学习层级跨模态关联以进行共同语音手势生成

CVPRMar, 2022

学习层级跨模态关联以进行共同语音手势生成

Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation

Xian Liu, Qianyi Wu, Hang Zhou, Yinghao Xu, Rui Qian...

TL;DR本文提出了一种名为 HA2G 的新框架，用于语音一致的身体和手势动作的生成。HA2G 使用分层音频学习器和分层姿势推理器提取并逐层渲染全身姿势，同时基于音频文本对齐的对比学习策略提高音频表示的质量，结果表明该方法生成的共语手势更逼真，比以往方法有更高的性能表现。

Abstract

Generating speech-consistent body and gesture movements is a long-standing problem in virtual avatar creation. Previous studies often synthesize pose movement in a holistic manner, where poses of all joints are generated simultaneously. Such a straightforward pipeline fails to generate

virtual avatar creation co-speech gesture generation hierarchical audio-to-gesture contrastive learning strategy human evaluation

发现论文，激发创造

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022

学习个体交谈手势风格

本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作，通过训练无标签视频并将我们的模型与基准方法进行量化比较，证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法，并且我们发布了一个大型的视频数据集以支持研究。

Jun, 2019

从文本、音频、说话者身份的三模态上下文生成言语手势

本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型，使用新的手势生成度量标准和主观人类评估表明，该模型优于现有的端到端生成模型。

Sep, 2020

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

Gesticulator: 一个语义感知的语音驱动手势生成框架

本文介绍了一种基于深度学习的模型，该模型将语音的声学和语义表示作为输入，生成关节角度旋转序列作为输出，可以产生任意节拍和语义手势。

Jan, 2020

CoCoGesture: 在自然环境中实现一致的共同话语 3D 手势生成

我们提出了 CoCoGesture，这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架，通过大规模数据集和预训练模型的优化，在零样本语音转手势生成上表现优于现有方法。

May, 2024

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

节奏手势器：基于分层神经嵌入的节奏感知共同语音手势合成

我们提出了一种新颖的共语手势合成方法，在节奏和语义上实现了令人信服的结果。我们的系统包含了一个强大的基于节奏的分割流程，以确保表达和手势之间的时间上的连贯性，以及一种机制，以有效地解开语音和运动的低层和高层神经嵌入，从而实现了节奏和语义感知的手势合成。与现有的客观指标、新提出的节奏指标和人类反馈相结合的评估表明，我们的方法在超过现有技术水平上表现出色。

Oct, 2022

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024