Jan, 2024
M2-CLIP: 视频动作识别的多模态多任务自适应框架
M2-CLIP: A Multimodal, Multi-task Adapting Framework for Video Action Recognition
Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei...
TL;DR该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。