朝着变量和协调的整体语音运动生成

CVPRMar, 2024

朝着变量和协调的整体语音运动生成

Towards Variable and Coordinated Holistic Co-Speech Motion Generation

Yifei Liu, Qiong Cao, Yandong Wen, Huaiguang Jiang, Changxing Ding

TL;DR通过 ProbTalk 的统一概率框架，以综合协调性和可变性为核心，生成自然多样的整体语音运动，从而比现有方法在质量和数量上都实现了更高的真实度。

Abstract

This paper addresses the problem of generating lifelike holistic co-speech motions for 3D avatars, focusing on two key aspects: variability and coordination. →

holistic co-speech motions variability coordination probtalk probabilistic framework

发现论文，激发创造

超越言语 -- 为沟通生成整体性的三维人类二人运动

本文介绍了一个创新任务，重点关注人类沟通，旨在生成说话者和听众的三维整体人体动作。我们的方法的核心是将因子分解与文本语义信息相结合，从而更真实和协调地生成动作。我们分别训练 VQ-VAEs 来处理说话者和听众的整体动作，并考虑了说话者和听众之间的实时相互影响，提出了一种新颖的基于链式变换器的自回归模型，专门设计用于有效描述现实世界的沟通场景，可以同时生成说话者和听众的动作。这些设计确保了我们生成的结果既协调又多样化。我们的方法在两个基准数据集上展示出最先进的性能。此外，我们还介绍了 HoCo 整体沟通数据集，这是未来研究的宝贵资源。我们的 HoCo 数据集和代码将在被接受后用于研究目的发布。

Mar, 2024

SpeechAct: 从语音生成全身动作

通过使用混合点表示，并结合对比运动学习方法，本研究提出了一种从语音中生成全身动作的模型，以解决现有方法在从语音中生成多样且合理的全身动作时所面临的挑战。

Nov, 2023

CodeTalker: 利用离散运动先验驱动的语音驱动 3D 面部动画

本文提出将基于语音的面部动画转化为在学习到的码本的有限代理空间中的代码查询任务，有效地减少了跨模态映射的不确定性，从而提高了生成的运动的生动性，并且通过使用一个自动回归模型，演示了我们方法在视觉和感知质量上均优于当前最先进的方法。

Jan, 2023

学习聆听：建模非确定性二元面部动作

该论文提出了一个交互式对话的建模框架，通过结合说话人的动作、对话音频和可能的相应听众动作输出来捕捉非口头双人互动的多模态和非确定性特征，还使用了运动 - 音频交叉注意力变换将说话人的运动和语音音频结合起来，并通过运动编码 VQ-VAE 学习了对真实听众运动的离散潜在表示。

Apr, 2022

VividTalk：基于 3D 混合先验模型的单次音频驱动说话头生成

提出了一个名为 VividTalk 的两阶段通用框架，用于生成具有高视觉质量的语音驱动的说话人视频，并在唇语同步、丰富的面部表情、高视觉质量等方面超越了以往的最先进作品。

Dec, 2023

RapVerse: 从文本生成连贯的歌词与整体身体动作

通过将三维整体身体动作和唱歌声音联合生成，我们的研究工作在文本歌词输入方面取得了进展，并建立了整体人体动作和声音生成的新基准。

May, 2024

音频至照片级虚拟人物：对话中的人物合成

我们提出了一个框架，用于生成根据对话动态姿势的真实感十足的全身虚拟人物。通过给定的语音音频，我们输出一个人的多个姿势动作可能性，包括面部、身体和手部动作。我们的方法的关键在于将向量量化的样本多样性与扩散所获得的高频细节相结合，以生成更动态、富有表现力的运动。我们使用高度逼真的虚拟人物来可视化生成的动作，能够表达姿势中的重要细微之处（如冷笑和假笑）。为了促进这项研究，我们介绍了一种首次出现的多视角对话数据集，可以进行逼真的重建。实验证明，我们的模型生成了适当且多样化的姿势动作，优于仅使用扩散或仅使用向量量化的方法。此外，我们的感知评估突出了逼真（与网格）对准确评估对话姿势中的细微运动细节的重要性。代码和数据集可在线获取。

Jan, 2024

基于概率的语音驱动三维面部动作合成：新的基准、方法和应用

从语音信号中为 3D 面部几何动画创建概率模型的研究，通过大规模数据集和合适的评估指标，展示了多样性和准确性，可生成适应未知说话者风格的 3D 面部运动，并改进下游的视听模型表现。

Nov, 2023

SadTalker：学习逼真的 3D 动作系数，用于风格化音频驱动的单张图像口型动画

本文提出了 SadTalker—— 一种生成逼真说话头像视频的方法，通过音频和 3D 运动系数生成 3D 头部姿态和表情，利用 ExpNet 和 PoseVAE 分别进行表情和头部姿态合成，并使用生成的 3D 运动系数合成最终视频，实验结果表明了该方法优于其他方法。

Nov, 2022

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024