CVPRMar, 2023

流媒体视频模型

TL;DR提出了一种名为 “Streaming Vision Transformer” 的流式视频架构,利用具有内存功能的时间感知空间编码器产生帧级特征,供基于帧的视频任务使用;然后将帧级特征输入到与任务相关的时间解码器中,获得用于序列化任务的时空特征,该模型在行动识别任务中具有最先进的准确度,并在基于帧的多目标跟踪任务中具有竞争优势。