面向操作流程的指导视频理解预训练

CVPRMar, 2023

面向操作流程的指导视频理解预训练

Procedure-Aware Pretraining for Instructional Video Understanding

Honglu Zhou, Roberto Martín-Martín, Mubbasir Kapadia, Silvio Savarese, Juan Carlos Niebles

TL;DR本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Abstract

Our goal is to learn a video representation that is useful for downstream procedure understanding tasks in instructional videos. Due to the small amount of available annotations, a key challenge in procedure understandi

procedural knowledge graph video representation learning procedure understanding pre-training objectives instructional video corpus

发现论文，激发创造

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

P3IV: 从教学视频中使用弱监督进行概率过程规划

本文提出了一种基于 transformer 和概率生成模块的弱监督方法，用于学习从自然语言指令中提取过程规划，避免了对训练视频进行昂贵的时序视频标注，并在三个数据集上的对比实验证明其优于之前的全监督模型。

May, 2022

为何不使用教科书？知识增强的教学视频程序规划

该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力，从而组装战略性的过程计划。利用来自训练数据的程序化知识图，我们提出了一种名为 KEPP 的新型知识增强程序规划系统，该系统在各种复杂度设置下的实验评估结果表明，KEPP 取得了卓越的、最新的结果，同时只需要很少的监督。

Mar, 2024

从烹饪视频中提取结构化程序化知识的基准

本文提出了从烹饪视频中提取结构化过程知识的基准测试，研究了现有模式的性能。

May, 2020

团结则存，分裂则亡：UnityGraph 用于无监督视频程序学习

给定相同任务的多个视频，本研究致力于确定任务的关键步骤并确定其顺序。为此，我们提出了一种无监督的基于图的过程学习 (GPL) 框架，其中包括了新颖的 UnityGraph 来获取视频内和视频间上下文。另外，为了获得相似的嵌入，我们使用 Node2Vec 算法无监督地更新 UnityGraph 的嵌入向量。最后，我们使用 KMeans 算法对嵌入向量进行聚类以确定关键步骤。我们在 ProceL、CrossTask 和 EgoProceL 数据集上进行了测试，并相比最先进方法，第三方数据集的平均改进为 2%，EgoProceL 数据集的改进为 3.6%。

Nov, 2023

在教学视频中基于视频图像挖掘的按键识别

我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率，并利用该图来规范化新视频中的关键步骤识别，从而在多个真实世界教学视频数据集上展示了影响：更可靠的零样本关键步骤定位和改进的视频表示学习，超越了现有技术水平。

Jul, 2023

从网络教学视频中实现自动学习程序

本文提出了使用长视频分类和描述学习人类共识过程结构的方法，利用 YouCook2 数据集和基于段的递归网络生成过程段。该方法可用于向其他任务提供预处理，如密集视频字幕和事件解析，并在过程分割中优于竞争基线。

Mar, 2017

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023

适应性指导视频中的检索增强规划器

本文介绍了在教学视频中的过程规划，其中关键问题包括自适应程序、时间关系、注释成本，并提出了检索增强规划器 (RAP) 模型来解决这些挑战。RAP 通过自适应地确定动作的结论、建立外部内存模块以明确从训练视频中检索最相关的状态 - 动作对，并利用弱监督学习扩大训练数据集，生成动作步骤的伪标签。在 CrossTask 和 COIN 基准测试上的实验证明了 RAP 在自适应过程规划方面的优越性，将其确立为自适应过程规划的强基准解决方案。

Mar, 2024

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022