CVPRApr, 2023

StepFormer:自监督下的指导视频步骤发现和定位

TL;DR介绍了一种自监督方法,叫做 StepFormer,用于从无需人类监督的大规模教学视频中发现和定位关键步骤。该方法使用 transformer 解码器关注视频,以生成一系列包含视频关键步骤的槽。通过使用文本形式的指导并采用顺序感知损失过滤掉无关短语,该方法在所有之前的非监督和弱监督方法上有了显着提升,具有解决零样本多步定位的优良特性。