教学视频中的过程规划：PDPP 算法

CVPRMar, 2023

教学视频中的过程规划：PDPP 算法

PDPP:Projected Diffusion for Procedure Planning in Instructional Videos

Hanlin Wang, Yilu Wu, Sheng Guo, Limin Wang

TL;DR研究了指导视频中的过程规划问题，使用扩散模型进行分布拟合，从中采样操作序列达到规划目标，并在三个数据集上验证了其优于当前方法的性能表现。

Abstract

In this paper, we study the problem of procedure planning in instructional videos, which aims to make goal-directed plans given the current visual observations in unstructured real-life videos. Previous works cast this problem as a sequence planning problem and leverage either heavy in

procedure planning instructional videos diffusion model sampling process state-of-the-art performance

发现论文，激发创造

面具扩散 + 任务感知：教学视频中的程序规划

在教学视频的程序规划中，处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容，人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型，并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近，通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而，现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制，我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器，使得扩散 / 去噪过程能够集中在一部分动作类型上。此外，为了增强任务分类的准确性，我们采用了更强大的视觉表示学习技术。特别地，我们学习了一个联合视觉 - 文本嵌入，其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法，并在多个指标上取得了最先进的性能。

Sep, 2023

ActionDiffusion: 一个针对教学视频程序规划的动作感知扩散模型

我们提出了一个新颖的扩散模型 ActionDiffusion，用于指导教学视频中的过程规划，它是第一个在扩散模型中考虑动作之间的时间依赖关系，与现有方法相比，利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪，其中，在噪声添加阶段通过在噪声掩码中添加动作嵌入，并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集（CrossTask、Coin 和 NIV）上进行了广泛的实验，并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明，通过将动作嵌入添加到噪声掩码中，扩散模型能够更好地学习动作的时间依赖关系，并提高了过程规划的性能。

Mar, 2024

P3IV: 从教学视频中使用弱监督进行概率过程规划

本文提出了一种基于 transformer 和概率生成模块的弱监督方法，用于学习从自然语言指令中提取过程规划，避免了对训练视频进行昂贵的时序视频标注，并在三个数据集上的对比实验证明其优于之前的全监督模型。

May, 2022

基于事件引导的通过文本监督的指导视频的流程规划

本研究针对从带有文本监督的指令视频中进行过程规划的任务，提出了一种基于事件引导的范式，通过从观察到的状态中推断事件并基于状态和预测的事件规划行动。在提出的模型中，还采用了遮盖和预测方法进行关系挖掘，通过将事件信息编码到顺序建模过程中来支持过程规划。实验证明了我们提出的模型的有效性。

Aug, 2023

利用扩散计划实现灵活的行为合成

本文通过扩展动力学模型，利用扩散概率模型去掉了传统轨迹优化方法的瓶颈，将采样和计划步骤近乎完全融合，通过分类器和图像插值获得了在线规划策略，并在长期决策和测试时间灵活性强的控制环境中成功应用了该框架。

May, 2022

视频生成的扩散概率建模

本文提出了一种自回归、端到端优化的视频扩散模型，受到神经视频压缩技术的启发，可用于生成高质量的视频，并提出了可扩展的连续排名概率得分（CRPS）方法，以评估视频的概率预测能力，该方法在自然和仿真视频的多个数据集上比先前方法的感知质量和概率预测有着显著的提高。

Mar, 2022

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

实用的即插即用扩散模型

本文提出了一种可行的指导框架，称为实用插播（PPAP），该框架利用参数高效的微调和不需要标记的数据传输来利用多个专家，每个专家都专门针对特定噪音范围并指导扩散的反转过程。通过图像类别有条件的生成实验，证明了该方法可以成功地引导扩散，且小可训练参数和没有标记的数据。最后，通过我们的框架，我们展示了图像分类器，深度估计器和语义分割模型可以以插播的方式指导公开可用的 GLIDE。

Dec, 2022

AID：适应图像到视频扩散模型用于指导视频预测

基于文本和初始帧，我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构，并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型，我们的方法在四个数据集上明显优于现有技术，证明了其在不同领域的有效性。

Jun, 2024

适应性指导视频中的检索增强规划器

本文介绍了在教学视频中的过程规划，其中关键问题包括自适应程序、时间关系、注释成本，并提出了检索增强规划器 (RAP) 模型来解决这些挑战。RAP 通过自适应地确定动作的结论、建立外部内存模块以明确从训练视频中检索最相关的状态 - 动作对，并利用弱监督学习扩大训练数据集，生成动作步骤的伪标签。在 CrossTask 和 COIN 基准测试上的实验证明了 RAP 在自适应过程规划方面的优越性，将其确立为自适应过程规划的强基准解决方案。

Mar, 2024