一种基于多说话人条件混合的语音手势动画样式转移方法

Jul, 2020

一种基于多说话人条件混合的语音手势动画样式转移方法

Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker Conditional-Mixture Approach

Chaitanya Ahuja, Dong Won Lee, Yukiko I. Nakano, Louis-Philippe Morency

TL;DR本文提出了一种名为 Mix-StAGE 的新模型，它以端到端的方式训练单个模型以服务于多个说话者，同时为每个说话者的手势学习独特的样式嵌入，该模型可以对对话风格和内容进行区分，并可轻松地更改相同输入语音的姿势样式；同时，我们还介绍了一个被设计用于研究手势生成和样式传递的新数据集 PATS，我们的 Mix-StAGE 模型明显优于以前的手势生成方法并为将手势风格传递到多个说话者提供了路径。

Abstract

How can we teach robots or virtual assistants to gesture naturally? Can we go further and adapt the gesturing style to follow a specific speaker? Gestures that are naturally timed with corresponding speech during human communication are called co-speech gestures. A key challenge, calle

co-speech gestures gesture style transfer style preservation mix-stage model pose-audio-transcript-style (pats) dataset

发现论文，激发创造

ZS-MSTM: 基於對抗解綜多模態風格編碼的零樣式轉移理論在從文本和語音驅動的手勢動畫中的應用

本研究利用机器学习方法进行虚拟代理人的行为风格建模，通过多模态数据进行风格转换，包括不同演讲者的手势合成。通过实验证明，该方法能更好地捕捉语音中的风格信息，不受测试阶段未见演讲者的影响。

May, 2023

CoCoGesture: 在自然环境中实现一致的共同话语 3D 手势生成

我们提出了 CoCoGesture，这是一个能够从未见过的人类语音提示中实现生动多样的手势合成的新框架，通过大规模数据集和预训练模型的优化，在零样本语音转手势生成上表现优于现有方法。

May, 2024

使用离散手势令牌学习来进行共同语音手势合成

针对语音对应手势模型中存在的多种可能性及冲突问题，本研究提出一种使用离散潜在编码的两阶段模型引入不确定性来解决这一问题，并使用自回归变换器模型学习手势生成的先验分布，经用户考核后证明本方法生成的手势具有更加逼真和多样性。

Mar, 2023

TranSTYLer: 多模态行为风格转换用于面部和身体姿势生成

使用 TranSTYLer 模型，该模型基于多模态转换器，可以在保留行为形状的同时，将一个虚拟代理人的行为表现风格转移到另一个代理人身上，同时确保传达源行为的含义为主。

Aug, 2023

通过运动解耦扩散模型生成共说手势视频

本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频，通过引入非线性 TPS 变换和基于变压器的扩散模型，学习手势和语音之间的时序相关性，并利用优化运动选择模块生成长期连贯和一致的手势视频，最后设计了一个细节修复网络来增强视觉感知，实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。

Apr, 2024

语音手势生成对话生成对话生成对话生成：机器人和具身化代理的手势生成

本文提出了一种新框架，可以根据语音文本和语音音频表达生成关节角度序列，经过客观和主观评估，证明了该手势生成框架对机器人和具身代理的有效性。

Sep, 2023

从文本、音频、说话者身份的三模态上下文生成言语手势

本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型，使用新的手势生成度量标准和主观人类评估表明，该模型优于现有的端到端生成模型。

Sep, 2020

学习个体交谈手势风格

本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作，通过训练无标签视频并将我们的模型与基准方法进行量化比较，证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法，并且我们发布了一个大型的视频数据集以支持研究。

Jun, 2019

音频驱动共话手势生成的扩散模型驯服

本研究提出了 Diffusion Co-Speech Gesture（DiffGesture）框架，该框架可有效捕捉跨模态的音频到手势关联并保持时间上的一致性，通过弥散模型的设计思路， DiffGesture 可以在质量和多样性之间进行平衡，实现了高保真的音频驱动共话手势生成。

Mar, 2023

通过多阶段序列标注实现共喃手势检测

我们提出了一种新的框架，将手势检测任务看作多阶段序列标注问题，通过处理时间窗口内的骨骼运动序列，使用 Transformer 编码器学习上下文嵌入，并利用条件随机场进行序列标注。我们在大规模数据集上对我们的方法进行评估，结果表明，我们的方法在检测手势笔划方面明显优于强基准模型。此外，将 Transformer 编码器应用于从运动序列中学习上下文嵌入显著改善了手势单元检测。这些结果突显了我们框架捕捉共话手势阶段微观动态的能力，为更细致和准确的手势检测和分析铺平了道路。

Aug, 2023