团结则存，分裂则亡：UnityGraph 用于无监督视频程序学习

Nov, 2023

团结则存，分裂则亡：UnityGraph 用于无监督视频程序学习

United We Stand, Divided We Fall: UnityGraph for Unsupervised Procedure Learning from Videos

Siddhant Bansal, Chetan Arora, C.V. Jawahar

TL;DR给定相同任务的多个视频，本研究致力于确定任务的关键步骤并确定其顺序。为此，我们提出了一种无监督的基于图的过程学习 (GPL) 框架，其中包括了新颖的 UnityGraph 来获取视频内和视频间上下文。另外，为了获得相似的嵌入，我们使用 Node2Vec 算法无监督地更新 UnityGraph 的嵌入向量。最后，我们使用 KMeans 算法对嵌入向量进行聚类以确定关键步骤。我们在 ProceL、CrossTask 和 EgoProceL 数据集上进行了测试，并相比最先进方法，第三方数据集的平均改进为 2%，EgoProceL 数据集的改进为 3.6%。

Abstract

Given multiple videos of the same task, procedure learning addresses identifying the key-steps and determining their order to perform the task. For this purpose, existing approaches use the signal generated from a pair of videos. This makes →

procedure learning graph-based procedure learning unitygraph key-steps discovery unsupervised clustering

发现论文，激发创造

Graph2Vid: 弱监督多步定位的流程图到视频对齐

本文提出了一种基于流程图及泛指操作文本的无需标注步骤顺序的视频多步弱监督本地化算法 Graph2Vid，并扩展了 CrossTask 数据集以验证算法有效性。

Oct, 2022

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023

在教学视频中基于视频图像挖掘的按键识别

我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率，并利用该图来规范化新视频中的关键步骤识别，从而在多个真实世界教学视频数据集上展示了影响：更可靠的零样本关键步骤定位和改进的视频表示学习，超越了现有技术水平。

Jul, 2023

STEPs: 从无标签过程视频中自监督提取关键步骤

通过提出的 Bootstrapped Multi-Cue Contrastive (BMC2) Loss，我们成功地建立了一个轻量级的时间模型，该模型使用现成的特征进行自我监督，并能够从多个提示信号中获取信息，最终实现从无标记程序性视频中提取出有意义的关键步骤。

Jan, 2023

可微分任务图学习：程序化活动表示和基于自我感知视频的在线错误检测

通过最大似然优化边权重的方法，从动作序列中预测任务图，与之前的方法相比提高了 16.7% 的准确性；同时可通过文本或视频嵌入来预测任务图，并在程序性自我中心视频中显著提高在线错误检测的准确性，分别在 Assembly101 和 EPIC-Tent 数据集上获得了 19.8% 和 7.5% 的显著增益。

Jun, 2024

通过多媒体基础实现非顺序图脚本归纳

该论文提出了一种新的具有挑战性的任务，即非顺序图脚本推理，旨在捕捉程序规划中的可选步骤和可互换步骤，通过多模态框架将视频转换成观察到的步骤路径，以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线，人类评估显示超过 WikiHow 线性基线，能够更好地捕捉顺序和非顺序步骤关系。

May, 2023

我视角最优：从自我中心视频中学习的过程

本文提出了一种使用基于第一人称视角拍摄的视频学习过程的框架，该框架可以在多个视频之间识别和利用关键步骤之间的时间对应关系，从而对过程进行学习。通过对两个基准数据集的实验，证明这一框架的性能优于现有的同类方法。此外，本文还提出了一个用于使用第一人称视角拍摄的视频进行过程学习的数据集。

Jul, 2022

使用叙述指令视频进行无监督学习

本文提出一种基于非监督学习的方法，通过集合指导语音和视频，可以自动地学习完成某项任务的主要步骤，例如更换汽车轮胎。通过应用两个聚类问题，同时解决文本和视频中的信息，使它们连接在一起，得出在两种情况下都具有一致性的主要步骤。本文提出的方法可以自动地在输入视频中发现和定位处于任务中的主要步骤。作者还采集和注解了一个包含旨在模拟真实场景的任务的挑战数据集。

Jun, 2015

协同弱监督视频相关学习用于过程感知教学视频分析

我们介绍了一种用于指导性视频的程序感知相关性学习的弱监督框架，该框架包含协同步骤挖掘和帧到步骤对齐两个核心模块，并在序列验证和行动质量评估两个任务中进行了实例化，实验证实了我们的方法在为指导性视频提供准确和可解释的相关性分析方面的有效性。

Dec, 2023