基于分割时空注意力机制的自我中心视频中目标状态变化分类

Jul, 2022

基于分割时空注意力机制的自我中心视频中目标状态变化分类

Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism

Md Mohaiminul Islam, Gedas Bertasius

TL;DR用基于Transformer的视频识别模型，利用分割的时空注意力机制，实现识别以自我为中心的视频中物体状态变化的分类，该模型在Ego4D: Object State Change Classification Challenge比赛中取得第二名表现，并证明在自我为中心的视频中识别物体状态变化需要有时间建模能力，同时展示了几个实例以可视化模型的预测结果。

Abstract

This report describes our submission called "TarHeels" for the Ego4D: object state change classification Challenge. We use a transformer-based video recognition model and leverage the divided space-time attention