Oct, 2021

面向视频识别的时序关注协方差汇聚网络

TL;DR本文提出了一种基于时间注意力和内帧关联的计算方式 ——Temporal-attentive Covariance Pooling (TCP),它可以灵活地集成到任何视频架构中,用于生成强大的视频表示,它在六个基准测试中都表现出优异的性能,并具有强大的泛化能力。