基于视觉语言模型的语义感知动作转换

Dec, 2023

基于视觉语言模型的语义感知动作转换

Semantics-aware Motion Retargeting with Vision-Language Models

Haodong Zhang, ZhiKe Chen, Haocheng Xu, Lei Hao, Xiaofei Wu...

TL;DR使用视觉语言模型提取和保留有意义的运动语义，该方法通过可微分模块渲染 3D 动作并将高级运动语义与提取的语义嵌入进行对齐，以确保保留微观动作细节和高级语义，实验证明了该方法在产生高质量的运动重定向结果的同时准确保留了运动语义。

Abstract

Capturing and preserving motion semantics is essential to motion retargeting between animation characters. However, most of the previous works neglect the semantic information or rely on human-designed joint-leve

motion semantics motion retargeting semantics-aware motion retargeting vision-language models semantic embeddings

发现论文，激发创造

文本到动作检索：走向人体运动数据和自然语言的联合理解

本文探讨如何实现基于文本描述的运动检索任务，利用姿态估计、文本编码和基于分割空时注意力的 Motion Transformer 模型，对大量 3D 骨骼序列进行内容检索，实现了相应的定量度量评估。

May, 2023

基于运动语义和几何残留感知的蒙皮运动重定向

本研究提出了一种基于神经网络和几何形状的跨角色动作传递算法，使用距离损失函数对动作和几何属性进行建模，产生的结果在保留动作语义的同时，抑制了物体间的穿透和接触缺失，具有最新的性能表现。

Mar, 2023

语义增强：用增强的文本线索提升动态生成

SemanticBoost 是通过 Semantic Enhancement 模块和 Context-Attuned Motion Denoiser 方法同时解决数据集中语义注释不足和语境理解不强的问题，以生成高质量、语义一致的运动序列的一种新颖框架。

Oct, 2023

深度动作共享的骨架感知网络

本文提出了一种新颖的深度学习框架，用于不需要明确匹配训练集中运动对之间的数据驱动运动重定位，其利用不同同构骨架通过边合并操作可以简化为一个共同原始骨架并转化为一组关联于原始骨架关节的深度时态特征，从而实现简单的运动重定位，同时本方法是第一种能够在没有一对一匹配的情况下在不同采样运动链之间执行重定向的方法。

May, 2020

运动到语言：无监督学习的同步语义运动分割

本研究致力于构建一种序列到序列的架构，用于实现动作到语言的翻译和同步。我们提出了一种适用于同步 / 实时文本生成的新的局部注意力的递归表达形式，以及一种更适用于较小数据和同步生成的改进动作编码器架构。通过在 KIT 运动语言数据集上的实验证明，这两个因素都增加了生成文本质量和同步质量。

Oct, 2023

姿态至动作：带有姿态先验的跨域动作重定位

通过姿势数据和神经运动合成方法，我们利用现有的运动捕捉数据集将合理的动作转移到只有姿势数据的角色上，实验证明该方法可以同时有效地结合源角色的运动特征和目标角色的姿势特征，并通过小型或嘈杂的姿势数据集生成逼真的动作，被参与者评为更加享受观看、外观更逼真且表现更加平滑。

Oct, 2023

2D 动作重定向中的跨字符动作学习

本文提出了一种新的方法，通过使用神经网络从视频中提取人体运动的高级潜在表示的方法，实现了不需要显式重建三维姿态和 / 或相机参数的不同人类表演者之间的视频捕获运动的再定向。

May, 2019

迈向平衡对齐：视频时刻检索的模态增强语义建模

通过提升视频模态和文本模态的特征，Modal-Enhanced Semantic Modeling（MESM）框架在视频短片检索中实现了更平衡的对齐，填补了形式上不平衡的模态差距。实验证明该框架在多个基准测试上取得了显著的泛化能力和最佳效果。

Dec, 2023

通过规范化网络实现野外动作再定位的 MoCaNet

该研究提出了一种新的框架，通过结构和视图标准化操作，将 3D 动作重定位任务从控制环境转移到野外场景。该方法利用在线视频进行非监督训练，不需要使用任何运动捕捉系统或 3D 重建程序，从 2D 视频中重定位身体动作到 3D 角色，具有高精度的 2D 到 3D 动作转换性能，并且产生的规范化骨架序列可用于人类运动的可解释表示。

Dec, 2021

引导注意力的可解释运动字幕

从动作生成文本的研究，关注体部特定区域与动作的时间同步，通过运动编码和时空注意模型的结合，引入引导注意力及自适应门控训练策略，实现解释性生成并在性能上有所提升。

Oct, 2023