ICCVJul, 2019

视频目标检测的序列级语义聚合

TL;DR本研究提出了一种基于全序列级别的特征聚合方法(SELSA),用于视频目标检测,实现了更具区分性和更健壮的特征,同时创造了新的视角来理解 VID 问题。此法不需要 Seq-NMS 或 Tubelet 重评分等复杂的后处理方法,保持了管道的简洁明了,并在 ImageNet VID 和 EPIC KITCHENS 数据集上实现了新的最先进结果。