Aug, 2023

ViLP: 通过视觉、语言和姿势嵌入进行视频动作识别的知识探索

TL;DR本研究提出了首个基于姿势增强的视觉语言模型(VLM)用于视频动作识别,该方案在 UCF-101 和 HMDB-51 两个常用数据集上分别达到 92.81% 和 73.02% 的准确率,在动态学习预训练后准确率分别达到 96.11% 和 75.75%。