Nov, 2022

多模态少样本时间动作检测

TL;DR本文提出了一种新颖的多模态 Few-shot TAD 问题,利用新的类别名称和少量支撑视频联合处理,使用 MUPPET 方法来有效地将预先训练的视觉和语言模型耦合在一起,实现了当前最优表现,同时可拓展解决少样本目标检测问题。