利用语音进行多模式通信中的手势检测
我们提出了一种新的框架,将手势检测任务看作多阶段序列标注问题,通过处理时间窗口内的骨骼运动序列,使用 Transformer 编码器学习上下文嵌入,并利用条件随机场进行序列标注。我们在大规模数据集上对我们的方法进行评估,结果表明,我们的方法在检测手势笔划方面明显优于强基准模型。此外,将 Transformer 编码器应用于从运动序列中学习上下文嵌入显著改善了手势单元检测。这些结果突显了我们框架捕捉共话手势阶段微观动态的能力,为更细致和准确的手势检测和分析铺平了道路。
Aug, 2023
ConvoFusion 是一种基于扩散的多模态手势合成方法,通过两个引导目标实现了不同条件模态(例如音频与文本)的调节和重点单词的强调,在生成单语手势和对话式手势方面都具有多用途性。
Mar, 2024
本研究旨在对 “野外” 单个说话人的单调发言进行语音输入并生成合理的手臂动作,通过训练无标签视频并将我们的模型与基准方法进行量化比较,证明了我们提出的模型在肢体运动与语音之间的交叉模式翻译方面显着优于基准方法,并且我们发布了一个大型的视频数据集以支持研究。
Jun, 2019
本文提出了一种基于多模态上下文和对抗训练的自动生成手势模型,使用新的手势生成度量标准和主观人类评估表明,该模型优于现有的端到端生成模型。
Sep, 2020
本文提出了一种新的运动解耦框架来生成音频驱动的共语手势视频,通过引入非线性 TPS 变换和基于变压器的扩散模型,学习手势和语音之间的时序相关性,并利用优化运动选择模块生成长期连贯和一致的手势视频,最后设计了一个细节修复网络来增强视觉感知,实验结果表明我们的框架在动作和视频评估方面明显优于现有方法。
Apr, 2024
我们提出了一种基于语音和相应的手势模式的多模态图神经网络,用于检测失语症类型,通过学习每种失语症类型中语音和手势模态之间的相关性,我们的模型能够生成对手势信息敏感的文本表示,实现了准确的失语症类型检测,实验证明了我们方法的优越性 (达到了 84.2% 的 F1 值),我们还展示了手势特征优于声学特征,凸显了手势表达在检测失语症类型中的重要性。
Oct, 2023
通过 LivelySpeaker 框架,我们实现了语义感知的共同语言手势生成,并提供了几个控制手段。我们的方法将任务分解为两个阶段:基于脚本的手势生成和基于音频引导的节奏细化。具体地说,基于脚本的手势生成利用预先训练的 CLIP 文本嵌入作为指导,生成与脚本高度语义对齐的手势。然后,我们设计了一个简单而有效的基于扩散的手势生成骨干,仅依赖音频信号并学习以逼真的动作作为手势。我们利用这种强大的先验知识将脚本引导的手势与音频信号相结合,尤其是在零样本设置下。我们的两阶段生成框架还能实现多种应用,例如改变手势风格,通过文本提示编辑共同语言手势,以及通过引导扩散控制语义感知和节奏对齐。大量实验证明了所提出框架相对竞争方法的优点。此外,我们的核心基于扩散的生成模型在两个基准测试中也取得了最先进的性能。代码和模型将在未来发布以促进研究。
Sep, 2023
本文介绍了一种基于深度学习的模型,该模型将语音的声学和语义表示作为输入,生成关节角度旋转序列作为输出,可以产生任意节拍和语义手势。
Jan, 2020
本文提出了一种基于手势模板和语音音频的共同生成手势序列方法,使用嘴唇同步误差作为代理度量来调整和评估模型的同步能力,通过对齐生成的手势序列和语音音频的同步性评估表明该方法在保真度和同步性方面能够获得更好的客观和主观评价。
Aug, 2021
Semantic Gesticulator 是一个新颖的框架,旨在通过强有力的语义对应性合成伴随语音的逼真手势,通过大型语言模型的生成检索框架,有效地从动作库中检索合适的语义手势候选,以生成与语音节奏相匹配的高质量手势,通过语义对齐机制确保最终动画的自然性,证明了系统在生成节奏一致和语义明确的手势方面的稳健性。
May, 2024