Gesticulator: 一个语义感知的语音驱动手势生成框架
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。
Sep, 2023
本文提出了一种新框架,可以根据语音文本和语音音频表达生成关节角度序列,经过客观和主观评估,证明了该手势生成框架对机器人和具身代理的有效性。
Sep, 2023
我们提出了一种新颖的共语手势合成方法,在节奏和语义上实现了令人信服的结果。我们的系统包含了一个强大的基于节奏的分割流程,以确保表达和手势之间的时间上的连贯性,以及一种机制,以有效地解开语音和运动的低层和高层神经嵌入,从而实现了节奏和语义感知的手势合成。与现有的客观指标、新提出的节奏指标和人类反馈相结合的评估表明,我们的方法在超过现有技术水平上表现出色。
Oct, 2022
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
Sep, 2020
ConvoFusion 是一种基于扩散的多模态手势合成方法,通过两个引导目标实现了不同条件模态(例如音频与文本)的调节和重点单词的强调,在生成单语手势和对话式手势方面都具有多用途性。
Mar, 2024
本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作,通过训练无标签视频并将我们的模型与基准方法进行量化比较,证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法,并且我们发布了一个大型的视频数据集以支持研究。
Jun, 2019
本文提出了一种基于学习的共语手势生成模型,从 52 小时的 TED 演讲中学习,并成功地生成了各种手势,包括像征性、隐喻性、指示性和节奏性手势。该模型通过主观评估,被认为与人类行为类似,与语音内容相匹配。另外展示了与 NAO 机器人在实时工作中进行共语手势的场景。
Oct, 2018
本论文描述了一个基于现有的扩散式运动合成模型为 GENEA Challenge 2023 开发的系统。我们提出了对比语言和动作预训练(CSMP)模块,该模块学习了语言和手势的联合嵌入,旨在学习这些模态之间的语义耦合关系。CSMP 模块的输出被用作扩散式手势合成模型中的条件信号,以实现语义感知的共言语手势生成。我们的参赛作品在所提交参赛作品中获得了最高的人类相似度和最高的语言适应性评分,这表明我们的系统是实现携带语义含义的类人共言语手势的一种有前途的方法。
Sep, 2023
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024