在教学视频中基于视频图像挖掘的按键识别

Jul, 2023

在教学视频中基于视频图像挖掘的按键识别

Video-Mined Task Graphs for Keystep Recognition in Instructional Videos

Kumar Ashutosh, Santhosh Kumar Ramakrishnan, Triantafyllos Afouras, Kristen Grauman

TL;DR我们提出从视频中自动发现任务图表示人们如何执行关键步骤的概率，并利用该图来规范化新视频中的关键步骤识别，从而在多个真实世界教学视频数据集上展示了影响：更可靠的零样本关键步骤定位和改进的视频表示学习，超越了现有技术水平。

Abstract

procedural activity understanding requires perceiving human actions in terms of a broader task, where multiple keysteps are performed in sequence across a long video to reach a final goal state -- such as the steps of a recipe or a DIY fix-it task. Prior work largely treats

procedural activity understanding keystep recognition task graph how-to videos video representation learning

发现论文，激发创造

从教学视频转录中生成无监督任务图

本文探讨了生成真实世界活动任务图的问题，提出了一种无监督的任务图生成方法，结合语言模型的推理能力、聚类和排名组件，比 ProceL 和 CrossTask 数据集中的有监督学习方法生成更准确的任务图。

Feb, 2023

可微分任务图学习：程序化活动表示和基于自我感知视频的在线错误检测

通过最大似然优化边权重的方法，从动作序列中预测任务图，与之前的方法相比提高了 16.7% 的准确性；同时可通过文本或视频嵌入来预测任务图，并在程序性自我中心视频中显著提高在线错误检测的准确性，分别在 Assembly101 和 EPIC-Tent 数据集上获得了 19.8% 和 7.5% 的显著增益。

Jun, 2024

利用远程监督学习识别过程性活动

本文研究了从长达数分钟的视频中识别精细、多步骤活动的问题，通过远程监督的语言模型方法，基于 wikiHow 的文本数据库自动标注视频中的步骤，并在识别过程中考虑了它们的时间依赖性，实现了较高的泛化性能。

Jan, 2022

教学视频中任务结构的学习与验证

本论文介绍了一种新的预训练视频模型，VideoTaskformer，利用遮盖步骤建立弱监督学习任务，学习全局步骤表示，实现对多步骤任务的表示和预测。同时提出了两个新的基准测试来检测指令视频中的错误步骤和步骤执行顺序，以及一项长期预测基准测试，均取得了优于现有基线的性能，适用于评估全球学习的步骤表示质量。

Mar, 2023

STEPs: 从无标签过程视频中自监督提取关键步骤

通过提出的 Bootstrapped Multi-Cue Contrastive (BMC2) Loss，我们成功地建立了一个轻量级的时间模型，该模型使用现成的特征进行自我监督，并能够从多个提示信号中获取信息，最终实现从无标记程序性视频中提取出有意义的关键步骤。

Jan, 2023

从说明视频和其叙述中学习过程感知视频表示

研究利用大量网络教学视频和其解说学习视频表示方法，以编码动作步骤及其时间排序，推动步骤分类和预测等领域的发展。通过深度概率模型同时学习视频表示和时间依赖关系，且在 COIN 和 EPIC-Kitchens 等数据集上，具有比同类研究更明显的提升。同时，该研究对于不完整步骤的步骤推测也有良好的表现。

Mar, 2023

面向操作流程的指导视频理解预训练

本研究旨在利用视频表示学习技术，通过构建 Procedural Knowledge Graph (PKG) 生成伪标签来训练视频表示模型，以提高多种程序理解任务的精度。其中 PKG 结构由通过无标签的教学视频和基于文本的程序知识库信息融合而成，训练数据使用了四个新的预训练目标。最终模型 Paprika 在 12 个任务上实现了高达 11.23% 的精度提升。

Mar, 2023

Graph2Vid: 弱监督多步定位的流程图到视频对齐

本文提出了一种基于流程图及泛指操作文本的无需标注步骤顺序的视频多步弱监督本地化算法 Graph2Vid，并扩展了 CrossTask 数据集以验证算法有效性。

Oct, 2022

通过多媒体基础实现非顺序图脚本归纳

该论文提出了一种新的具有挑战性的任务，即非顺序图脚本推理，旨在捕捉程序规划中的可选步骤和可互换步骤，通过多模态框架将视频转换成观察到的步骤路径，以训练生成明确图脚本和预测未来步骤的模型。该模型优于纯文本 / 视觉基线，人类评估显示超过 WikiHow 线性基线，能够更好地捕捉顺序和非顺序步骤关系。

May, 2023

为何不使用教科书？知识增强的教学视频程序规划

该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力，从而组装战略性的过程计划。利用来自训练数据的程序化知识图，我们提出了一种名为 KEPP 的新型知识增强程序规划系统，该系统在各种复杂度设置下的实验评估结果表明，KEPP 取得了卓越的、最新的结果，同时只需要很少的监督。

Mar, 2024