StepFormer：自监督下的指导视频步骤发现和定位

CVPRApr, 2023

StepFormer：自监督下的指导视频步骤发现和定位

StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos

Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg...

TL;DR介绍了一种自监督方法，叫做 StepFormer，用于从无需人类监督的大规模教学视频中发现和定位关键步骤。该方法使用 transformer 解码器关注视频，以生成一系列包含视频关键步骤的槽。通过使用文本形式的指导并采用顺序感知损失过滤掉无关短语，该方法在所有之前的非监督和弱监督方法上有了显着提升，具有解决零样本多步定位的优良特性。

Abstract

instructional videos are an important resource to learn procedural tasks from human demonstrations. However, the instruction steps in such videos are typically short and sparse, with most of the video being irrelevant to the procedure. This motivates the need to temporally localize the

instructional videos key-step localization self-supervised model transformer decoder zero-shot multi-step localization

发现论文，激发创造

教学视频中任务结构的学习与验证

本论文介绍了一种新的预训练视频模型，VideoTaskformer，利用遮盖步骤建立弱监督学习任务，学习全局步骤表示，实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序，以及一项长期预测基准测试，均取得了优于现有基线的性能，适用于评估全球学习的步骤表示质量。

Mar, 2023

STEPs: 从无标签过程视频中自监督提取关键步骤

通过提出的 Bootstrapped Multi-Cue Contrastive (BMC2) Loss，我们成功地建立了一个轻量级的时间模型，该模型使用现成的特征进行自我监督，并能够从多个提示信号中获取信息，最终实现从无标记程序性视频中提取出有意义的关键步骤。

Jan, 2023

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

通过叙述学习将说明文章与视频联系起来

本文提出了一种无需手动监督的方法来将『如何做』视频中的步骤与 wikiHow 等语言知识库中的指导文章进行对齐，并采用多模态对齐进行全局时间定位，验证结果表明与现有方法相比具有明显优势。

Jun, 2023

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

基于教学视频的跨任务弱监督学习

采用弱监督学习框架，通过使用教学说明和有序步骤列表而非强监督学习形式的时间标注，学习普通任务中步骤的视觉模型，提出了一种组件模型用于识别步骤，实验结果表明，跨任务共享有助于提高组件水平的性能。

Mar, 2019

无监督视频集合中的语义行为发现

通过视觉和语言提示的联合生成模型，对互联网上海量的指示视频进行语义步骤解析，为每个语义步骤和视频段提供文本描述。大量的 YouTube 视频验证了该方法能够准确发现各种任务的语义正确指示。

May, 2016

教学视频中的步骤差异

通过利用现有步骤注释和配套叙述，我们提出了一种方法，首先自动生成大量涉及来自 HowTo100M 的视频对的视觉指导调优数据，然后训练一个视频修饰的语言模型以联合推理多个原始视频，以识别视频对之间的差异并根据这些差异的严重程度对视频进行排名，显示出在多个视频上进行一般推理的有希望能力。

Apr, 2024

视频本地化指令生成的高效预训练

通过 Sieve 和 Swap 技术自动筛选和替换人工写入的文本指导，构建一个比当前大规模数据集小三个数量级的精选数据集，从而提高大规模模型在过程视频中的性能。同时使用 Procedure Transformer (ProcX) 进行步骤定位和指导生成，以零 - shot 和微调设置在 YouCook2 和 Tasty 数据集上取得了最先进的性能，并且使用了较少的计算资源。

Nov, 2023