Dec, 2023

针对未剪辑视频的短期 Transformer 动作检测的调整

TL;DR设计了一种适应预训练的 ViT 模型作为统一的长视频 Transformer 的新机制,以捕捉不同片段间的精细关系,并保持较低的计算开销和内存消耗,实现高效的时间动作检测。