Jul, 2022

基于分割时空注意力机制的自我中心视频中目标状态变化分类

TL;DR用基于Transformer的视频识别模型,利用分割的时空注意力机制,实现识别以自我为中心的视频中物体状态变化的分类,该模型在Ego4D: Object State Change Classification Challenge比赛中取得第二名表现,并证明在自我为中心的视频中识别物体状态变化需要有时间建模能力,同时展示了几个实例以可视化模型的预测结果。