ECCVJul, 2022

基于视觉 - 语言提示的零样本时序动作检测

TL;DR本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型,通过打破定位和分类之间的依赖关系来消除错误传播,有效解决了序列定位和分类设计中的困难,实验证明我们的模型在标准 ZS-TAD 视频基准上显著优于现有的最先进的推荐方案,在监督式 TAD 上也胜过近期的强竞争对手。该模型的 PyTorch 实现可在链接中获取。