Jun, 2024

FILS:自我监督的语义语言空间内视频特征预测

TL;DR利用全面的自我监督方式,在语义语言空间中通过预测视频特征的掩码语义来实现更具语义性的视频表示,该方法在下游动作识别任务中具有显著的传递性能,并在诸如Epic-Kitchens、Something-SomethingV2、Charades-Ego和EGTEA等具有挑战性的自我中心数据集上使用ViT-Base取得了最新的性能表现。