基于音频的神经手势再现与视频运动图的应用

CVPRJul, 2022

基于音频的神经手势再现与视频运动图的应用

Audio-driven Neural Gesture Reenactment with Video Motion Graphs

Yang Zhou, Jimei Yang, Dingzeyu Li, Jun Saito, Deepali Aneja...

TL;DR该论文提供了一种利用语音内容匹配身体动作的视频再现方法，通过剪辑、组合、动作建模、音频节奏搜索等技术，实现了更高质量和一致性的视频合成。

Abstract

Human speech is often accompanied by body gestures including arm and hand gestures. We present a method that reenacts a high-quality video with gestures matching a target speech audio. The key idea of our method is to split and re-assemble clips from a reference video through a novel v

body gestures video reenactment pose-aware video blending network audio-based gesture searching algorithm video synthesis

发现论文，激发创造

从视频中学习基于语音的 3D 对话手势

利用 CNN 架构及 GAN 模型自动综合逼真的 3D 虚拟人物之肢体手势，面部表情和语音生成，同时创造出三维身体、手部和面部数据，并利用多模态的 3D 姿态估计技术和训练，实现更加自然流畅的合成动画。

Feb, 2021

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

音频驱动的同话手势视频生成

本研究旨在解决语音驱动的共同语言手势图像序列生成问题，提出了一种名为 ANGIE 的框架，使用向量量化运动提取器和共同语言 GPT，以有效地捕捉可重用的共同语言手势模式和细粒度节奏变化，从而实现高保真度的图像序列生成。

Dec, 2022

基于语音的手势生成输入输出特征分析

本文提出了一种新的自动化语音驱动姿势生成框架，适用于人 - 代理交互，包括虚拟代理和机器人，并首次将表示学习应用于语音驱动姿势生成。

Mar, 2019

节奏手势器：基于分层神经嵌入的节奏感知共同语音手势合成

我们提出了一种新颖的共语手势合成方法，在节奏和语义上实现了令人信服的结果。我们的系统包含了一个强大的基于节奏的分割流程，以确保表达和手势之间的时间上的连贯性，以及一种机制，以有效地解开语音和运动的低层和高层神经嵌入，从而实现了节奏和语义感知的手势合成。与现有的客观指标、新提出的节奏指标和人类反馈相结合的评估表明，我们的方法在超过现有技术水平上表现出色。

Oct, 2022

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

使用条件变分自编码器从语音音频生成多样化手势

通过 split cross-modal 潜变量为 shared 和 motion-specific 两部分，结合 mapping network, relaxed motion loss, bicycle constraint 和 diversity loss 技术来训练条件变分自编码器，从而更加真实和多样的生成语音到动作的映射。

Aug, 2021

自动人脸重现

提出了一种基于图像的面部再现系统，其可用于将源视频用户的面孔替换为现有目标视频中演员的面孔，并保留原始目标性能，系统具有全自动化和不需要源表情数据库的特点，使用了图像检索和面部转移以产生令人信服的效果。

Feb, 2016

学习个体交谈手势风格

本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作，通过训练无标签视频并将我们的模型与基准方法进行量化比较，证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法，并且我们发布了一个大型的视频数据集以支持研究。

Jun, 2019