E2E-LOAD: 端到端在线长视频动作检测

Jun, 2023

E2E-LOAD: 端到端在线长视频动作检测

E2E-LOAD: End-to-End Long-form Online Action Detection

Shuqiang Cao, Weixin Luo, Bairui Wang, Wei Zhang, Lin Ma

TL;DR本文提出了一种用于在线动作检测的端对端模型 (E2E-LOAD)，使用可训练的骨干网络，提出了一种新的空间 - 时间模型和有效的推理机制，取得了较高的检测性能和较低的计算成本。

Abstract

Recently, there has been a growing trend toward feature-based approaches for online action detection (OAD). However, these approaches have limitations due to their fixed backbone design, which ignores the potential capability of a →

online action detection trainable backbone spatial-temporal model inference mechanism efficiency

发现论文，激发创造

一项关于端到端时间动作检测的实证研究

本文介绍了一种基于端到端学习的方法进行时间动作检测，相对于只有检测头优化的方法，端到端学习可以带来多达 11% 的性能改进，并针对影响 TAD 性能和速度的多种设计选择进行了深入研究，并提出了更高效的检测器。

Apr, 2022

跨 1000 帧的 10 亿参数端到端时序动作检测

通过降低训练内存消耗，本研究提出了一种新颖的轻量级模块 —— 时间信息适配器（TIA），有效地增加了时间动作检测（TAD）系统的规模和输入视频的帧数，从而显著提高了检测性能。

Nov, 2023

Action-OOD: 针对鲁棒性的端到端基于骨骼的模型用于非同分布人体动作检测

我们提出了一种新颖的端到端基于骨架的模型，称为 Action-OOD，用于识别人类动作中的 ODD，通过引入基于注意力的特征融合块和能量损失函数，我们的模型在识别未知类别的能力和分类准确性方面表现出了优越的性能。

May, 2024

单阶段动作检测 Transformer

介绍了一种新型的一阶段行为检测变压器（OADT）模型，能够同时识别视频片段的种类和时间边界，并通过多种特征组合得到最终的 21.28％动作 mAP 测试结果，位列行为检测挑战赛第一名。

Jun, 2022

使用时空上下文的实时在线动作检测森林

提出了一种基于随机森林的在线动作检测框架，使用计算效率高的骨骼关节特征和通用 CNN 特征，通过时间关系构造 RF 的新分割函数，并在挑战性数据集上显著提高了准确性。

Oct, 2016

OadTR: 使用 Transformer 进行在线动作检测

本文提出了一个新的 Transformers 编码器 - 解码器框架 OadTR 用于在线行动检测，该模型能够同时编码历史信息并预测未来内容，性能优于目前基于 RNN 的方法。

Jun, 2021

MALT: 在线动作检测的多尺度动作学习变形器

提出了一种多尺度动作学习变压器（MALT）方法，包括用于特征融合的新颖循环解码器、多个编码分支的分层编码器和使用稀疏注意力的显式帧评分机制，该方法在两个基准数据集（THUMOS'14 和 TVSeries）上取得了优于现有模型的性能。

May, 2024

DOAD: 去耦合单阶段行为检测网络

本文提出一种解耦网络（DOAD）和基于变换器的模块（TransPC），用于提高视频理解的效率和行为检测的准确性。

Apr, 2023

JOADAA：联合在线动作检测和动作预测

通过结合动作预测和在线动作检测，我们提出了一种统一的模型 JOADAA，能够覆盖在线动作检测中未来信息的缺失依赖关系，并在 THUMOS'14、CHARADES 和 Multi-THUMOS 三个具有挑战性的数据集上取得了最优结果。

Sep, 2023

TE-TAD：基于时间对齐的坐标表达的全端到端时域行动检测

我们提出了一种全面的端到端时序动作检测变换器，它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程，而且显著改善了查询型检测器的性能。

Apr, 2024