Apr, 2023

利用 Token Dropout 和上下文细化提高视频动作检测效率

TL;DR本文提出了一种基于视觉句子转换器的高效视频动作检测框架(EVAD),其中包含两个专门用于视频动作检测的设计:从关键帧 - centric 视角提取时空令牌进行中间特征显著化,通过利用剩余令牌来细化场景环境来获得精确的演员身份识别,该框架可将计算复杂度降低 43%,提高实时推断速度 40%,而不会降低性能,并且可以在类似的计算成本下使用更高分辨率的输入来提高性能。