可微分任务图学习：程序化活动表示和基于自我感知视频的在线错误检测

Jun, 2024

可微分任务图学习：程序化活动表示和基于自我感知视频的在线错误检测

Differentiable Task Graph Learning: Procedural Activity Representation and Online Mistake Detection from Egocentric Videos

PDF

Luigi Seminara, Giovanni Maria Farinella, Antonino Furnari

TL;DR通过最大似然优化边权重的方法，从动作序列中预测任务图，与之前的方法相比提高了 16.7% 的准确性；同时可通过文本或视频嵌入来预测任务图，并在程序性自我中心视频中显著提高在线错误检测的准确性，分别在 Assembly101 和 EPIC-Tent 数据集上获得了 19.8% 和 7.5% 的显著增益。

Abstract

procedural activities are sequences of key-steps aimed at achieving specific goals. They are crucial to build intelligent agents able to assist users effectively. In this context, task graphs have emerged as a hu

procedural activities task graphs maximum likelihood optimization gradient-based learning online mistake detection

发现论文，激发创造

在教学视频中基于视频图像挖掘的按键识别

我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率，并利用该图来规范化新视频中的关键步骤识别，从而在多个真实世界教学视频数据集上展示了影响：更可靠的零样本关键步骤定位和改进的视频表示学习，超越了现有技术水平。

Jul, 2023

学习可规划程序任务的表示的动作动态任务图

本文通过 Action Dynamics Task Graphs (ATDG) 提取任务的结构 - 相关动作及其时间依赖性来理解人类执行任务的未见视频。ATDG 还可以用于提供用户中心指导，包括跟踪正在执行中的任务、推荐下一步行动和规划动作序列，相较于当前最新的神经任务图法，在 CrossTask 数据集的 18 项操作中，改进了 30.1％的任务跟踪准确性和 20.3％的下一步行动预测准确度。

Jan, 2023

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

CaptainCook4D：过程活动错误理解数据集

我们收集了一个全新的心理 4D 数据集 CaptainCook4D，包含了 384 个人在真实厨房环境中表演食谱的记录（共 94.5 小时），该数据集包含两种不同类型的活动：一种是参与者按照提供的食谱指示进行，另一种是参与者偏离指示并引发错误，我们提供了 5.3K 个步骤注释和 10K 个精细动作注释，并对该数据集进行了监督错误识别、多步本地化和程序学习的基准测试。

Dec, 2023

我视角最优：从自我中心视频中学习的过程

本文提出了一种使用基于第一人称视角拍摄的视频学习过程的框架，该框架可以在多个视频之间识别和利用关键步骤之间的时间对应关系，从而对过程进行学习。通过对两个基准数据集的实验，证明这一框架的性能优于现有的同类方法。此外，本文还提出了一个用于使用第一人称视角拍摄的视频进行过程学习的数据集。

Jul, 2022

PREGO：PRocedural EGOcentric 视频中的在线错误检测

通过在线的一类分类模型 PREGO 在过程自我中心视频中检测错误，从而准确识别程序性错误，该模型基于在线动作识别和符号推理模块实现错误检测。

Apr, 2024

团结则存，分裂则亡：UnityGraph 用于无监督视频程序学习

给定相同任务的多个视频，本研究致力于确定任务的关键步骤并确定其顺序。为此，我们提出了一种无监督的基于图的过程学习 (GPL) 框架，其中包括了新颖的 UnityGraph 来获取视频内和视频间上下文。另外，为了获得相似的嵌入，我们使用 Node2Vec 算法无监督地更新 UnityGraph 的嵌入向量。最后，我们使用 KMeans 算法对嵌入向量进行聚类以确定关键步骤。我们在 ProceL、CrossTask 和 EgoProceL 数据集上进行了测试，并相比最先进方法，第三方数据集的平均改进为 2%，EgoProceL 数据集的改进为 3.6%。

Nov, 2023

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023

Videograph：在视频中识别持续数分钟的人类活动

VideoGraph 是一种图形表示方法，它能够代表几分钟长的人类活动并学习其基本的时间结构，成功地在 Epic-Kitchen 和 Breakfast 数据集上提出了相关工作的改进。

May, 2019