单阶段动作检测 Transformer

Jun, 2022

One-stage Action Detection Transformer

Lijun Li, Li'an Zhuo, Bang Zhang

TL;DR介绍了一种新型的一阶段行为检测变压器（OADT）模型，能够同时识别视频片段的种类和时间边界，并通过多种特征组合得到最终的 21.28％动作 mAP 测试结果，位列行为检测挑战赛第一名。

Abstract

In this work, we introduce our solution to the EPIC-KITCHENS-100 2022 Action Detection challenge. One-stage action detection transformer (OADT) is proposed to model the temporal connection of video segments. With

action detection transformer temporal connection ensembling features action map

发现论文，激发创造

OadTR: 使用 Transformer 进行在线动作检测

本文提出了一个新的 Transformers 编码器 - 解码器框架 OadTR 用于在线行动检测，该模型能够同时编码历史信息并预测未来内容，性能优于目前基于 RNN 的方法。

Jun, 2021

使用 Transformer 进行端到端时序动作检测

本研究提出了一种基于 Transformer 的时态动作检测方法，通过少量学习嵌入（称为动作查询）从视频中自适应地提取时间上下文信息，并直接预测动作实例的时间间隔和语义标签，通过三种改进提高本地化意识，实现了端到端的学习，并取得了与现有方法相比的卓越性能。

Jun, 2021

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

DOAD: 去耦合单阶段行为检测网络

本文提出一种解耦网络（DOAD）和基于变换器的模块（TransPC），用于提高视频理解的效率和行为检测的准确性。

Apr, 2023

一项关于端到端时间动作检测的实证研究

本文介绍了一种基于端到端学习的方法进行时间动作检测，相对于只有检测头优化的方法，端到端学习可以带来多达 11% 的性能改进，并针对影响 TAD 性能和速度的多种设计选择进行了深入研究，并提出了更高效的检测器。

Apr, 2022

单阶段开放词汇的时态行为检测：利用时态多尺度和动作标签特征

开放词汇时态动作检测是一种先进的视频分析方法，它扩展了封闭词汇时态动作检测的能力。

Apr, 2024

E2E-LOAD: 端到端在线长视频动作检测

本文提出了一种用于在线动作检测的端对端模型 (E2E-LOAD)，使用可训练的骨干网络，提出了一种新的空间 - 时间模型和有效的推理机制，取得了较高的检测性能和较低的计算成本。

Jun, 2023

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

TE-TAD：基于时间对齐的坐标表达的全端到端时域行动检测

我们提出了一种全面的端到端时序动作检测变换器，它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程，而且显著改善了查询型检测器的性能。

Apr, 2024

MALT: 在线动作检测的多尺度动作学习变形器

提出了一种多尺度动作学习变压器（MALT）方法，包括用于特征融合的新颖循环解码器、多个编码分支的分层编码器和使用稀疏注意力的显式帧评分机制，该方法在两个基准数据集（THUMOS'14 和 TVSeries）上取得了优于现有模型的性能。

May, 2024