CVPRJun, 2021

迈向长型视频理解

TL;DR本研究通过开发评估协议和引入一种基于对象为中心的变压器视频识别架构,针对大规模数据集进行长型视频理解任务的研究,并展示了其在 7 项不同任务上的性能显著优于现有短期模型的结果,同时在 AVA 数据集上也优于可比较的最新研究成果。