一项关于端到端时间动作检测的实证研究

CVPRApr, 2022

一项关于端到端时间动作检测的实证研究

An Empirical Study of End-to-End Temporal Action Detection

Xiaolong Liu, Song Bai, Xiang Bai

TL;DR本文介绍了一种基于端到端学习的方法进行时间动作检测，相对于只有检测头优化的方法，端到端学习可以带来多达 11% 的性能改进，并针对影响 TAD 性能和速度的多种设计选择进行了深入研究，并提出了更高效的检测器。

Abstract

temporal action detection (TAD) is an important yet challenging task in video understanding. It aims to simultaneously predict the semantic label and the temporal interval of every action instance in an untrimmed video. Rather than →

temporal action detection end-to-end learning efficiency-accuracy trade-off video understanding performance improvement

发现论文，激发创造

使用 Transformer 进行端到端时序动作检测

本研究提出了一种基于 Transformer 的时态动作检测方法，通过少量学习嵌入（称为动作查询）从视频中自适应地提取时间上下文信息，并直接预测动作实例的时间间隔和语义标签，通过三种改进提高本地化意识，实现了端到端的学习，并取得了与现有方法相比的卓越性能。

Jun, 2021

跨 1000 帧的 10 亿参数端到端时序动作检测

通过降低训练内存消耗，本研究提出了一种新颖的轻量级模块 —— 时间信息适配器（TIA），有效地增加了时间动作检测（TAD）系统的规模和输入视频的帧数，从而显著提高了检测性能。

Nov, 2023

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

TE-TAD：基于时间对齐的坐标表达的全端到端时域行动检测

我们提出了一种全面的端到端时序动作检测变换器，它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程，而且显著改善了查询型检测器的性能。

Apr, 2024

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021

评估时间动作检测模型对时间损坏的鲁棒性

该研究建立了两个时间相关的损坏性能基准，并分析了七种不同的时间行为检测方法的鲁棒性，发现现有方法对于时间损坏很容易出现性能下降，特别是在行为定位方面。研究还提出了一种简单而有效的鲁棒训练方法，能够防御时间损坏并在清晰数据上获得改进。该研究将为将来鲁棒视频分析的研究提供基准。

Mar, 2024

双重 DETR 用于多标签时间动作检测

提出了一种新的双层查询型时态行动检测框架 DualDETR，在多标签 TAD 基准测试中表现出优于现有最先进方法的性能，在 det-mAP 下实现了显著改进，在 seg-mAP 下取得了令人印象深刻的结果。

Mar, 2024

后处理时间性行为检测

本研究旨在解决现有时间序列动作检测算法常常在预处理阶段对视频进行下采样和采样恢复所带来的时间量化误差问题，并介绍了一种新的基于高斯分布的模型无关的后处理方法，称为 Gaussian Approximated Post-processing (GAP)，通过此方法可以在子片段级别上实现时间边界推断，在多项挑战性基准测试中，GAP 已经被证明可以显著提高各种预训练 TAD 模型的性能，并且可以与模型训练集成以进一步提高性能。

Nov, 2022

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023