通过图像扩散过程进行动作检测
本文提出了一种使用扩散去噪的新时域动作检测(TAD)方法,名为 DiffTAD。该方法采用生成建模方法,而非以往判别式学习方法,借助 Transformer decoder 中引入的时间位置查询设计来建立去噪过程,通过交叉步选择性调节算法来提高推断速度。在 ActivityNet 和 THUMOS 上广泛评估后,我们的 DiffTAD 相比以往的艺术选择方案,表现出卓越的性能。
Mar, 2023
我们提出了一个新颖的扩散模型 ActionDiffusion,用于指导教学视频中的过程规划,它是第一个在扩散模型中考虑动作之间的时间依赖关系,与现有方法相比,利用了动作按特定顺序执行的丰富信息内容。我们的方法通过将动作信息投影到噪声空间实现了对动作的学习和扩散过程中的去噪,其中,在噪声添加阶段通过在噪声掩码中添加动作嵌入,并通过在噪声预测网络中引入注意机制来学习不同动作步骤之间的相关性。我们在三个教学视频基准数据集(CrossTask、Coin 和 NIV)上进行了广泛的实验,并展示了我们的方法在 CrossTask 和 NIV 的所有指标以及 Coin 数据集上的除准确性以外的所有指标上胜过了以前的最先进方法。我们的研究结果表明,通过将动作嵌入添加到噪声掩码中,扩散模型能够更好地学习动作的时间依赖关系,并提高了过程规划的性能。
Mar, 2024
AdaDiff 是一个轻量级框架,通过学习实例特定的步骤使用策略,优化了扩散模型的图像 / 视频生成过程,以最大化平衡推理时间和生成质量的回报函数,并在减少推理时间至少 33% 的情况下实现与基准方法相似的视觉质量。
Nov, 2023
该研究提出了名为 Information Discrimination Unit(IDU)的循环单元以区分背景信息和感兴趣的动作信息,同时还提出了名为 Information Integration Unit(IIU)的循环单元用于动作预测,并在 TVSeries 和 THUMOS-14 数据集上取得了显著的性能提升。
Sep, 2021
介绍了一种在线行动检测方法,使用名为 Information Discrimination Unit(IDU)的新型循环单元来显式区分与当前操作相关的信息和其他信息,以学习更具辨别力的表示来鉴定当前操作,实验证明该方法在 TVSeries 和 THUMOS-14 两个基准数据集上的效果显著优于现有方法,并通过广泛的消融实验证明了循环单元的有效性。
Dec, 2019
该研究提出了一种直接预测动作时间边界的完全端到端的方法,其中模型作为一个基于循环神经网络的智能体与视频交互,并使用 REINFORCE 来学习决策策略,取得了 THUMOS'14 和 ActivityNet 数据集的最先进结果。
Nov, 2015
该研究提出了一种基于 1D 时间卷积层的单次动作检测器(SSAD)网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中,它探讨了输入特征类型和融合策略,并在两个具有挑战性的数据集上进行了广泛的实验,证明了在 THUMOS 2014 和 MEXaction2 的评估过程中,SSAD 的 mAP 比其他最先进的系统增加了很多。
Oct, 2017
在教学视频的程序规划中,处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容,人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型,并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近,通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而,现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制,我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器,使得扩散 / 去噪过程能够集中在一部分动作类型上。此外,为了增强任务分类的准确性,我们采用了更强大的视觉表示学习技术。特别地,我们学习了一个联合视觉 - 文本嵌入,其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法,并在多个指标上取得了最先进的性能。
Sep, 2023