CVPRMar, 2021

视频中的时间活动检测粗细网络

TL;DR介绍了 Coarse-Fine Networks 模型,利用不同抽象层次的时间分辨率学习更好的视频表示,提出 Grid Pool 和 Multi-stage Fusion 算法,成功降低了计算和内存需求,且超越了 Charades 数据集中的行动检测 state-of-the-art 性能。