MMAug, 2023

长视频中高效的视频识别:在移动时观察

TL;DR基于 “移动中观察” 新的识别范例,相比于传统的分阶段范例,以更高的效率融合粗粒度采样和细粒度识别的统一时空建模,并通过层次化机制高效捕获、推断长剪辑视频中的单位级和视频级时间语义,实现了新的视频时空建模效率与准确性的权衡。