面具扩散 + 任务感知：教学视频中的程序规划

Sep, 2023

面具扩散 + 任务感知：教学视频中的程序规划

Masked Diffusion with Task-awareness for Procedure Planning in Instructional Videos

Fen Fang, Yun Liu, Ali Koksal, Qianli Xu, Joo-Hwee Lim

TL;DR在教学视频的程序规划中，处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容，人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型，并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近，通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而，现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制，我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器，使得扩散 / 去噪过程能够集中在一部分动作类型上。此外，为了增强任务分类的准确性，我们采用了更强大的视觉表示学习技术。特别地，我们学习了一个联合视觉 - 文本嵌入，其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法，并在多个指标上取得了最先进的性能。

Abstract

A key challenge with procedure planning in instructional videos lies in how to handle a large decision space consisting of a multitude of action

procedure planning instructional videos action types diffusion models visual representation learning

发现论文，激发创造

ActionDiffusion: 一个针对教学视频程序规划的动作感知扩散模型

我们提出了一个新颖的扩散模型 ActionDiffusion，用于指导教学视频中的过程规划，它是第一个在扩散模型中考虑动作之间的时间依赖关系，与现有方法相比，利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪，其中，在噪声添加阶段通过在噪声掩码中添加动作嵌入，并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集（CrossTask、Coin 和 NIV）上进行了广泛的实验，并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明，通过将动作嵌入添加到噪声掩码中，扩散模型能够更好地学习动作的时间依赖关系，并提高了过程规划的性能。

Mar, 2024

教学视频中的过程规划：PDPP 算法

研究了指导视频中的过程规划问题，使用扩散模型进行分布拟合，从中采样操作序列达到规划目标，并在三个数据集上验证了其优于当前方法的性能表现。

Mar, 2023

视频预测与填充的扩散模型

本文提出了一种名为 RaMViD 的随机掩码视频扩散模型，利用 3D 卷积将图像扩散模型扩展到视频领域，并引入了一种新的训练条件技术，通过改变所用的掩码，能够实现视频预测、填充和上采样，通过评估 RaMViD 在两个视频预测数据集上的表现，本文证明了该模型达到了最新水平，并提供了高分辨率视频的数据。

Jun, 2022

通过离散扩散进行大规模无操作视频预训练，实现高效策略学习

利用人类视频进行预训练，通过有限的机器人演示来转移知识，实现机器人策略学习的通用性体现。

Feb, 2024

InstructDiffusion: 一个用于视觉任务的通用建模接口

我们提出了 InstructDiffusion，这是一个统一且通用的框架，用于将计算机视觉任务与人类指令对齐。相比于现有方法，该框架不需要融合先验知识或为每个视觉任务预定义输出空间，而是将不同的视觉任务转化为与人类直观感知一致的图像处理过程，其输出空间是一个灵活且交互式的像素空间。通过扩散过程训练模型以根据用户指令预测像素，例如在红色中圈出男人的左肩或在左辆车上应用蓝色口罩。InstructDiffusion 可处理各种视觉任务，包括理解任务（如分割和关键点检测）和生成任务（如编辑和增强）。它甚至能够处理未见过的任务，并在新数据集上优于先前的方法。这将推进计算机视觉领域的人工智能通用建模接口的发展。

Sep, 2023

基于扩散的内嵌任务规划框架：不确定环境下的计划作为修复

在这篇研究论文中，我们提出了一个统一的框架，包括端到端可训练方法和规划算法，用于解决具有挑战性的具体任务规划问题。我们使用一种名为 'planning as in-painting' 的任务无关方法，在部分可观察环境下，结合语言指令和感知输入条件下的去噪扩散模型（DDM）来生成计划。为了提高生成计划的可靠性，我们的扩散方法同时建模状态轨迹和目标估计，并提出了一种即时规划算法与扩散规划器协作。该框架在包括视觉语言导航、物体操作和任务规划在真实虚拟环境中的表现表现出有希望的性能。

Dec, 2023

扩散模型作为遮蔽音频 - 视频学习器

学习了音频和视觉信号的同步已经被利用来学习更丰富的音频 - 视觉表示，最新的研究结合了扩散模型与音频 - 视频预训练框架 MAViL，通过使用掩蔽编码和对比学习来实现音频谱图和视频帧的联合重构，并通过训练效率方法的结合降低了 32％的浮点预训练操作数量 (FLOPS) 和 18％的预训练时间，与 MAViL 相比，在下游音频分类任务上没有损害模型的性能。

Oct, 2023

VIDiff: 多模态指令扩散模型的视频翻译

我们提出了 Video Instruction Diffusion（VIDiff），这是一个统一的基础模型，专为广泛的视频任务设计，包括理解任务（如语言引导的视频对象分割）和生成任务（视频编辑和增强）。我们的模型可以根据用户指令在几秒钟内编辑和翻译所需的结果，并设计了一个迭代的自回归方法来确保对长视频的一致性编辑和增强。我们以定性和定量的方式提供了对各种输入视频和书面指令的令人信服的生成结果。

Nov, 2023

掩码扩散模型学习速度快

我们提出了一种基于先验的去噪训练框架，并将先训练和微调范式纳入扩散模型的训练过程，从而显着提高了训练效率和生成的图像质量。

Jun, 2023

AID：适应图像到视频扩散模型用于指导视频预测

基于文本和初始帧，我们引入多模态大型语言模型 (MLLM) 来预测未来的视频状态。通过设计双查询 Transformer (DQFormer) 架构，并利用长短期时间适配器和空间适配器来快速转换通用视频扩散模型，我们的方法在四个数据集上明显优于现有技术，证明了其在不同领域的有效性。

Jun, 2024