Dec, 2019

大小网络与深度时间聚合学习高效视频表示

TL;DR本文介绍了一种基于低分辨率帧和高分辨率帧的轻量级、节省内存的行动识别架构,通过 FLOPs 降低 3~4 倍,内存使用降低 2 倍,利用提出的时间聚合模块来模拟视频中的时间依赖性。该模型在多项行动识别基准测试中表现良好。