Jan, 2024

M2-CLIP: 视频动作识别的多模态多任务自适应框架

TL;DR该研究介绍了一种名为 \name 的新型多模态、多任务 CLIP 自适应框架,通过引入多模态适配器和多任务解码器,实现强大的监督学习性能和在零样本场景中的强大泛化能力。