教学视频中的程序规划

Jul, 2019

Procedure Planning in Instructional Videos

Chien-Yi Chang, De-An Huang, Danfei Xu, Ehsan Adeli, Li Fei-Fei...

TL;DR本文提出 Dual Dynamics Networks（DDN）框架来解决学习结构化的、可规划的状态和动作空间的技术挑战，以应对复杂任务规划的问题；DDN 框架在真实世界的教学视频上展示了更好的规划性能。

Abstract

In this paper, we study the problem of procedure planning in instructional videos, which can be seen as a step towards enabling autonomous agents to plan for complex tasks in everyday settings such as cooking. Gi

procedure planning instructional videos autonomous agents structured priors dual dynamics networks

发现论文，激发创造

通过情境建模和基于模型的策略学习在教学视频中进行程序规划

本文提出了一种新的过程规划公式，通过贝叶斯推论和基于模型的模仿学习，建模人类行为，从而在实际的指导视频中实现了它，证明了我们的方法可以实现达到指定目标的最先进性能的同时，学习到的上下文信息以潜在空间的形式表现出有趣的特征。

Oct, 2021

P3IV: 从教学视频中使用弱监督进行概率过程规划

本文提出了一种基于 transformer 和概率生成模块的弱监督方法，用于学习从自然语言指令中提取过程规划，避免了对训练视频进行昂贵的时序视频标注，并在三个数据集上的对比实验证明其优于之前的全监督模型。

May, 2022

基于 Transformer 的视觉引导规划在程序化任务中的应用

使用人类决策过程的教学视频培训模型，学习从视频中直接生成可规划结构的状态和行动空间，并使用 Planning Transformer 解决了长期决策的复杂性问题，并通过实验证明了其在达到目标方面的良好性能表现。

Sep, 2021

教学视频中的过程规划：PDPP 算法

研究了指导视频中的过程规划问题，使用扩散模型进行分布拟合，从中采样操作序列达到规划目标，并在三个数据集上验证了其优于当前方法的性能表现。

Mar, 2023

Skip-Plan：通过简化的行动空间学习在教学视频中进行程序规划

通过跳过不确定的节点和边，在行动链中以简化行动空间的方式，我们的模型能够探索行动序列中各种可靠的子关系，并在 CrossTask 和 COIN 两个评估数据集上达到了最先进的性能。

Oct, 2023

基于事件引导的通过文本监督的指导视频的流程规划

本研究针对从带有文本监督的指令视频中进行过程规划的任务，提出了一种基于事件引导的范式，通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中，还采用了遮盖和预测方法进行关系挖掘，通过将事件信息编码到顺序建模过程中来支持过程规划。实验证明了我们提出的模型的有效性。

Aug, 2023

为何不使用教科书？知识增强的教学视频程序规划

该研究探讨了代理程序在构建逻辑动作步骤序列方面的能力，从而组装战略性的过程计划。利用来自训练数据的程序化知识图，我们提出了一种名为 KEPP 的新型知识增强程序规划系统，该系统在各种复杂度设置下的实验评估结果表明，KEPP 取得了卓越的、最新的结果，同时只需要很少的监督。

Mar, 2024

适应性指导视频中的检索增强规划器

本文介绍了在教学视频中的过程规划，其中关键问题包括自适应程序、时间关系、注释成本，并提出了检索增强规划器 (RAP) 模型来解决这些挑战。RAP 通过自适应地确定动作的结论、建立外部内存模块以明确从训练视频中检索最相关的状态 - 动作对，并利用弱监督学习扩大训练数据集，生成动作步骤的伪标签。在 CrossTask 和 COIN 基准测试上的实验证明了 RAP 在自适应过程规划方面的优越性，将其确立为自适应过程规划的强基准解决方案。

Mar, 2024

SCHEMA: 在教学视频中，状态变化对流程规划至关重要

我们研究了教学视频中的过程规划问题，旨在根据部分视觉观察结果制定目标导向的行动步骤序列，通过跟踪状态变化建立更有结构化的状态空间。通过在步骤表示中利用通识知识并通过语言描述对齐状态观察，我们提出的 SCHEMA 模型在 CrossTask、COIN 和 NIV 基准数据集上实验，取得了最先进的性能，并得到了可解释的可视化结果。

Mar, 2024

从网络教学视频中实现自动学习程序

本文提出了使用长视频分类和描述学习人类共识过程结构的方法，利用 YouCook2 数据集和基于段的递归网络生成过程段。该方法可用于向其他任务提供预处理，如密集视频字幕和事件解析，并在过程分割中优于竞争基线。

Mar, 2017