GesGPT: 基于 GPT 的文本解析语音姿态综合技术

Mar, 2023

GesGPT: 基于 GPT 的文本解析语音姿态综合技术

GesGPT: Speech Gesture Synthesis With Text Parsing from GPT

Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng

TL;DR提出了一种通过 GPT 提取语义信息并利用手势库和集成模块生成与语音文本相关的语境适当和表现丰富的共同言语手势的姿态生成新方法 GesGPT。

Abstract

gesture synthesis has gained significant attention as a critical research area, focusing on producing contextually appropriate and natural gestures corresponding to speech or textual input. Although deep learning

gesture synthesis deep learning semantic analysis gpt co-speech gestures

发现论文，激发创造

语义手势生成器：语义感知的共语手势合成

Semantic Gesticulator 是一个新颖的框架，旨在通过强有力的语义对应性合成伴随语音的逼真手势，通过大型语言模型的生成检索框架，有效地从动作库中检索合适的语义手势候选，以生成与语音节奏相匹配的高质量手势，通过语义对齐机制确保最终动画的自然性，证明了系统在生成节奏一致和语义明确的手势方面的稳健性。

May, 2024

大规模语言模型在文本分析中的手势选择

利用大型语言模型（LLMs）适应手势分析和生成，使用 ChatGPT 作为工具建议能够实现设计师意图的上下文特定手势，并且发现 ChatGPT 可以提供不在最小训练数据中的新颖而适当的手势，从而减少繁琐的注释工作，并有潜力快速适应不同的设计意图。

Oct, 2023

生动演讲者：走向语义感知的共同语言手势生成

通过 LivelySpeaker 框架，我们实现了语义感知的共同语言手势生成，并提供了几个控制手段。我们的方法将任务分解为两个阶段：基于脚本的手势生成和基于音频引导的节奏细化。具体地说，基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导，生成与脚本高度语义对齐的手势。然后，我们设计了一个简单而有效的基于扩散的手势生成骨干，仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合，尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用，例如改变手势风格，通过文本提示编辑共同语言手势，以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外，我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。

Sep, 2023

GestureGPT: 大型语言模型代理的零 - shot 交互式手势理解与 grounding

当前的手势识别系统主要集中在识别预定义集合中的手势，无法将这些手势与交互式 GUI 元素或系统功能连接起来。我们引入了 GestureGPT，这是一个新颖的零样本手势理解和基础框架，利用大型语言模型（LLMs）。手势描述基于手势视频中的手部地标坐标构建，并输入到我们的双代理对话系统中。手势代理解码这些描述并查询交互上下文（例如界面、历史、凝视数据），上下文代理组织并提供这些信息。在迭代交互后，手势代理确定用户意图并将其连接到交互功能。我们使用公开的第一视角和第三视角手势数据集验证了手势描述模块，并在两个真实世界环境中进行了整个系统的测试：视频流和智能家居物联网控制。零样本 Top-5 基础准确率最高为 80.11%（视频流）和 90.78%（智能家居任务），展示了这种新的手势理解范式的潜力。

Oct, 2023

Gesticulator: 一个语义感知的语音驱动手势生成框架

本文介绍了一种基于深度学习的模型，该模型将语音的声学和语义表示作为输入，生成关节角度旋转序列作为输出，可以产生任意节拍和语义手势。

Jan, 2020

PoseGPT：关于三维人体姿势的对话

PoseGPT 是一个框架，利用大型语言模型（LLMs）从图像或文本描述中理解和推理出 3D 人体姿势。它通过嵌入 SMPL 姿势作为多模态 LLM 中的独立信号标记来解决传统人体姿势估计方法的局限性，不仅简化了姿势预测，而且赋予了 LLMs 在推理人体姿势方面应用它们的世界知识的能力，从而在姿势估计上进行推理，创造了两项先进任务：姿势的假设生成和姿势估计的推理。PoseGPT 在这些新提出的任务上优于现有的多模态 LLMs 和特定任务的方法，并开辟了人体姿势分析的新方向。

Nov, 2023

基于扩散的联合文本和音频表征的共语言手势生成

本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练（CSMP）模块，该模块学习了语言和手势的联合嵌入，旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号，以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分，这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。

Sep, 2023

从文本、音频、说话者身份的三模态上下文生成言语手势

本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型，使用新的手势生成度量标准和主观人类评估表明，该模型优于现有的端到端生成模型。

Sep, 2020

Sign2GPT：利用大型语言模型进行无术语手语翻译

利用大规模预训练视觉和语言模型通过轻量级适配器实现无语言标注的手语翻译的新型框架 Sign2GPT，在两个公共基准手语翻译数据集上评估并取得明显优于现有技术的无语言标注翻译性能提升。

May, 2024

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023