STEPs: 从无标签过程视频中自监督提取关键步骤

Jan, 2023

STEPs: 从无标签过程视频中自监督提取关键步骤

STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural Videos

Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa

TL;DR通过提出的 Bootstrapped Multi-Cue Contrastive (BMC2) Loss，我们成功地建立了一个轻量级的时间模型，该模型使用现成的特征进行自我监督，并能够从多个提示信号中获取信息，最终实现从无标记程序性视频中提取出有意义的关键步骤。

Abstract

We address the problem of extracting key steps from unlabeled procedural videos, motivated by the potential of augmented reality (AR) headsets to revolutionize job training and performance. We decompose the problem into two steps: →

procedural videos augmented reality representation learning key steps extraction bmc2

发现论文，激发创造

StepFormer：自监督下的指导视频步骤发现和定位

介绍了一种自监督方法，叫做 StepFormer，用于从无需人类监督的大规模教学视频中发现和定位关键步骤。该方法使用 transformer 解码器关注视频，以生成一系列包含视频关键步骤的槽。通过使用文本形式的指导并采用顺序感知损失过滤掉无关短语，该方法在所有之前的非监督和弱监督方法上有了显着提升，具有解决零样本多步定位的优良特性。

Apr, 2023

在教学视频中基于视频图像挖掘的按键识别

我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率，并利用该图来规范化新视频中的关键步骤识别，从而在多个真实世界教学视频数据集上展示了影响：更可靠的零样本关键步骤定位和改进的视频表示学习，超越了现有技术水平。

Jul, 2023

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023

团结则存，分裂则亡：UnityGraph 用于无监督视频程序学习

给定相同任务的多个视频，本研究致力于确定任务的关键步骤并确定其顺序。为此，我们提出了一种无监督的基于图的过程学习 (GPL) 框架，其中包括了新颖的 UnityGraph 来获取视频内和视频间上下文。另外，为了获得相似的嵌入，我们使用 Node2Vec 算法无监督地更新 UnityGraph 的嵌入向量。最后，我们使用 KMeans 算法对嵌入向量进行聚类以确定关键步骤。我们在 ProceL、CrossTask 和 EgoProceL 数据集上进行了测试，并相比最先进方法，第三方数据集的平均改进为 2%，EgoProceL 数据集的改进为 3.6%。

Nov, 2023

教学视频中任务结构的学习与验证

本论文介绍了一种新的预训练视频模型，VideoTaskformer，利用遮盖步骤建立弱监督学习任务，学习全局步骤表示，实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序，以及一项长期预测基准测试，均取得了优于现有基线的性能，适用于评估全球学习的步骤表示质量。

Mar, 2023

通过叙述学习将说明文章与视频联系起来

本文提出了一种无需手动监督的方法来将『如何做』视频中的步骤与 wikiHow 等语言知识库中的指导文章进行对齐，并采用多模态对齐进行全局时间定位，验证结果表明与现有方法相比具有明显优势。

Jun, 2023

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023