Aug, 2023

特征屏蔽建模:自下而上视频事件识别的无监督预训练图注意力网络块的特征屏蔽

TL;DR本文提出了一种新的方法,即遮蔽特征建模(MFM),用于无监督的图注意力网络(GAT)块的预训练。MFM 利用预训练的视觉令牌生成器重构视频中对象的遮蔽特征,利用 MiniKinetics 数据集。然后,将预训练的 GAT 块纳入最先进的自下而上的监督视频事件识别架构 ViGAT,以改进模型的起点和整体准确性。对 YLI-MED 数据集的实验评估表明,MFM 在改进事件识别性能方面是有效的。