一种用于密集多标签动作检测的有效高效方法

Jun, 2024

一种用于密集多标签动作检测的有效高效方法

An Effective-Efficient Approach for Dense Multi-Label Action Detection

Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton

TL;DR通过在转换器层中嵌入相对位置编码和非分层结构来解决密集多标签场景下同时学习时间依赖和共现动作关系的挑战，并通过引入一种新的学习范式，以在推断期间不施加额外计算成本的方式显式建模时间共现动作依赖性。

Abstract

Unlike the sparse label action detection task, where a single action occurs in each timestamp of a video, in a dense multi-label scenario, actions can overlap. To address this challenging task, it is necessary to simultaneously learn (i) →

dense multi-label temporal dependencies co-occurrence action relationships transformer-based network positional encoding

发现论文，激发创造

PAT: 基于位置感知的稠密多标签动作检测的 Transformer

我们提出了 PAT，一种基于 Transformer 的网络，通过利用多尺度时间特征来学习视频中复杂的时间共现动作依赖关系。

Aug, 2023

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

建模多标签动作依赖性以进行时序动作定位

本文提出了一种基于注意力机制的体系结构来模拟在未修剪视频的时间动作本地化任务中动作类之间的关系，并通过 Co - 发生依赖分支和时间依赖依赖分支来建模合作和临时依赖性，提出了新颖的度量标准以考虑动作类之间的依赖性，并在 MultiTHUMOS 和 Charades 数据集上展示了比现有方法更好的 f-mAP 性能。

Mar, 2021

每一刻都重要：复杂视频中行动的密集详细标注

该研究通过使用多标签分析行为识别问题，并在已有数据集 THUMOS 的基础上拓展了新数据集 MultiTHUMOS，提出了一种采用 LSTM 深度网络来建模多个密集标签时序关系的新算法，从而提高动作标注精度，同时也使得结构化检索和动作预测等更深入的理解任务得以实现。

Jul, 2015

MS-TCT: 多尺度时间卷积转换器用于动作检测

我们提出了一种基于 ConvTransformer 网络的行动检测方法，通过三个组件（时间编码器、时间尺度混合器和分类器）高效地捕捉视频中的短期和长期时间信息，实验表明该方法在 Charades、TSU 和 MultiTHUMOS 数据集上效果显著优于现有方法。

Dec, 2021

细节同理心：用于动作识别的密集轨迹和混合分类架构

介绍一种结合手工特征和深度学习的识别视频动作的方法，并在五个动作识别基准测试中取得了显著的数据效率和精度提升。

Aug, 2016

基于 Transformer 的 2D 姿势和时空嵌入融合的分心驾驶操作识别

该研究旨在通过将视频动作识别和 2D 人体姿势估计网络结合为一个模型，改善时间定位和分类准确性表现。最终，通过从不同的摄像头视角获取信息并消除误报，该模型在 2023 年 NVIDIA AI 城市挑战的自然驾驶行为识别中表现出色，实现了优化的区域覆盖得分 0.5079。

Mar, 2024

多模态 Transformer 网络用于动作检测

本文提出了一种新的多模态转换器网络，用于检测未修剪视频中的动作，利用新的多模态注意机制计算不同空间和动态模态组合之间的相关性，并提出一种算法来纠正相机运动引起的动态变形，该算法在 THUMOS14 和 ActivityNet 两个公共基准测试上优于现有方法，在我们的新教育活动数据集上进行了比较实验，该数据集包括从小学捕捉的大量具有挑战性的课堂视频。

May, 2023

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

TransRAC: 使用 Transformer 编码多尺度时间相关性用于重复行为计数

为解决现有短视频针对长视频中多样化和实际情况不足的问题，本文提出了一种包含多尺度时间关联的 transformer 编码方法和基于密度图回归的行动周期预测方法，并提供了更细致的注释来解决重复行动计数过程中的不一致现象。该方法不仅在所有数据集上均优于现有方法，而且在未经微调的未见过数据集上也表现更好。

Apr, 2022