通过图像扩散过程进行动作检测

CVPRApr, 2024

Action Detection via an Image Diffusion Process

Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Jun Liu

TL;DR通过 ADIDiff 框架的三图像生成过程，本研究旨在通过图像生成开始点、结束点和动作类别预测的图像来解决动作检测问题，并通过离散的行列转换器设计来处理特殊属性的图像，从而在两个广泛使用的数据集上取得了最先进的结果。

Abstract

action detection aims to localize the starting and ending points of action instances in untrimmed videos, and predict the classes of those instances. In this paper, we make the observation that the outputs of the

action detection untrimmed videos three-image generation process adi-diff framework state-of-the-art results

发现论文，激发创造

DiffTAD: 带有提案去噪扩散的时间动作检测

本文提出了一种使用扩散去噪的新时域动作检测（TAD）方法，名为 DiffTAD。该方法采用生成建模方法，而非以往判别式学习方法，借助 Transformer decoder 中引入的时间位置查询设计来建立去噪过程，通过交叉步选择性调节算法来提高推断速度。在 ActivityNet 和 THUMOS 上广泛评估后，我们的 DiffTAD 相比以往的艺术选择方案，表现出卓越的性能。

Mar, 2023

ActionDiffusion: 一个针对教学视频程序规划的动作感知扩散模型

我们提出了一个新颖的扩散模型 ActionDiffusion，用于指导教学视频中的过程规划，它是第一个在扩散模型中考虑动作之间的时间依赖关系，与现有方法相比，利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪，其中，在噪声添加阶段通过在噪声掩码中添加动作嵌入，并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集（CrossTask、Coin 和 NIV）上进行了广泛的实验，并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明，通过将动作嵌入添加到噪声掩码中，扩散模型能够更好地学习动作的时间依赖关系，并提高了过程规划的性能。

Mar, 2024

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

AdaDiff：自适应步长选择的快速扩散

AdaDiff 是一个轻量级框架，通过学习实例特定的步骤使用策略，优化了扩散模型的图像 / 视频生成过程，以最大化平衡推理时间和生成质量的回报函数，并在减少推理时间至少 33% 的情况下实现与基准方法相似的视觉质量。

Nov, 2023

在线行动检测的信息辨析学习：分析与应用

该研究提出了名为 Information Discrimination Unit（IDU）的循环单元以区分背景信息和感兴趣的动作信息，同时还提出了名为 Information Integration Unit（IIU）的循环单元用于动作预测，并在 TVSeries 和 THUMOS-14 数据集上取得了显著的性能提升。

Sep, 2021

在线动作检测

该研究针对在线动作检测问题，提出了一个基于现实数据的真实数据集，并通过分析多种基准方法以及评价协议，展示该问题具有挑战性，为后续在线动作检测研究提供了数据和模型。

Apr, 2016

在线动作检测信息区分学习

介绍了一种在线行动检测方法，使用名为 Information Discrimination Unit（IDU）的新型循环单元来显式区分与当前操作相关的信息和其他信息，以学习更具辨别力的表示来鉴定当前操作，实验证明该方法在 TVSeries 和 THUMOS-14 两个基准数据集上的效果显著优于现有方法，并通过广泛的消融实验证明了循环单元的有效性。

Dec, 2019

视频帧瞥片段的端到端动作检测学习

该研究提出了一种直接预测动作时间边界的完全端到端的方法，其中模型作为一个基于循环神经网络的智能体与视频交互，并使用 REINFORCE 来学习决策策略，取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。

Nov, 2015

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

面具扩散 + 任务感知：教学视频中的程序规划

在教学视频的程序规划中，处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容，人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型，并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近，通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而，现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制，我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器，使得扩散 / 去噪过程能够集中在一部分动作类型上。此外，为了增强任务分类的准确性，我们采用了更强大的视觉表示学习技术。特别地，我们学习了一个联合视觉 - 文本嵌入，其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法，并在多个指标上取得了最先进的性能。

Sep, 2023