基于语音的手势生成输入输出特征分析

Mar, 2019

基于语音的手势生成输入输出特征分析

Analyzing Input and Output Representations for Speech-Driven Gesture Generation

Taras Kucherenko, Dai Hasegawa, Gustav Eje Henter, Naoshi Kaneko, Hedvig Kjellström

TL;DR本文提出了一种新的自动化语音驱动姿势生成框架，适用于人 - 代理交互，包括虚拟代理和机器人，并首次将表示学习应用于语音驱动姿势生成。

Abstract

This paper presents a novel framework for automatic speech-driven gesture generation, applicable to human-agent interaction including both virtual agents and robots. Specifically, we extend recent deep-learning-based, data-driven methods for →

speech-driven gesture generation representation learning deep-learning-based methods human-agent interaction virtual agents and robots

发现论文，激发创造

快慢行进的变化：语音导向手势生成中的表征和后处理分析

本文提出了一种新颖的基于语音驱动的手势生成框架，可用于虚拟代理以增强人机交互，并通过深度学习和表示学习，对不同输入输出的网络提供了客观和主观的评估以及消除运动抖动的后处理措施。

Jul, 2020

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

从视频中学习基于语音的 3D 对话手势

利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势，面部表情和语音生成，同时创造出三维身体、手部和面部数据，并利用多模态的 3D 姿态估计技术和训练，实现更加自然流畅的合成动画。

Feb, 2021

探讨二维手势表达对言语伴手势生成的影响

评估训练数据的维度对多模态语音至手势深度生成模型性能的影响，比较直接生成的三维手势序列与通过二维生成并转换为三维后的手势序列。

Jun, 2024

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

MPE4G：用于共语手势生成的多模态预训练编码器

本文提出了一种基于多模态预训练编码器的共话手势生成方法，该方法通过自监督学习训练基于多头注意力的编码器以包含每种模态的信息，从而实现即使在输入模态缺失或存在噪声时，仍能生成逼真的共话手势。

May, 2023

基于音频的神经手势再现与视频运动图的应用

该论文提供了一种利用语音内容匹配身体动作的视频再现方法，通过剪辑、组合、动作建模、音频节奏搜索等技术，实现了更高质量和一致性的视频合成。

Jul, 2022

情感手势：协同语音的多样情感共述三维手势生成

EmotionGesture 是一种从音频生成真实共语手势的新型框架，其中通过情感节奏 - 振幅 - 对齐提取情感和音频节拍特征，并使用空间 - 时间提示器模型空间 - 时间相关性以生成空间 - 时间相关的提示，然后再用转换器模型生成 3D 共语手势，并通过运动平滑性添加稳定性来提高性能，并能够通过情感条件 VAE 生成丰富多样的情感结果。

May, 2023

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022