Dec, 2023

基于视觉语言模型的语义感知动作转换

TL;DR使用视觉语言模型提取和保留有意义的运动语义,该方法通过可微分模块渲染 3D 动作并将高级运动语义与提取的语义嵌入进行对齐,以确保保留微观动作细节和高级语义,实验证明了该方法在产生高质量的运动重定向结果的同时准确保留了运动语义。