一项关于端到端时间动作检测的实证研究
本研究提出了一种基于 Transformer 的时态动作检测方法,通过少量学习嵌入(称为动作查询)从视频中自适应地提取时间上下文信息,并直接预测动作实例的时间间隔和语义标签,通过三种改进提高本地化意识,实现了端到端的学习,并取得了与现有方法相比的卓越性能。
Jun, 2021
通过降低训练内存消耗,本研究提出了一种新颖的轻量级模块 —— 时间信息适配器(TIA),有效地增加了时间动作检测(TAD)系统的规模和输入视频的帧数,从而显著提高了检测性能。
Nov, 2023
我们提出了一种全面的端到端时序动作检测变换器,它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程,而且显著改善了查询型检测器的性能。
Apr, 2024
该研究提出了一种基于 1D 时间卷积层的单次动作检测器(SSAD)网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中,它探讨了输入特征类型和融合策略,并在两个具有挑战性的数据集上进行了广泛的实验,证明了在 THUMOS 2014 和 MEXaction2 的评估过程中,SSAD 的 mAP 比其他最先进的系统增加了很多。
Oct, 2017
本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战,其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节,实验结果表明,该方法取得了与现有最优方法相媲美的性能。
Sep, 2021
该研究建立了两个时间相关的损坏性能基准,并分析了七种不同的时间行为检测方法的鲁棒性,发现现有方法对于时间损坏很容易出现性能下降,特别是在行为定位方面。研究还提出了一种简单而有效的鲁棒训练方法,能够防御时间损坏并在清晰数据上获得改进。该研究将为将来鲁棒视频分析的研究提供基准。
Mar, 2024
提出了一种新的双层查询型时态行动检测框架 DualDETR,在多标签 TAD 基准测试中表现出优于现有最先进方法的性能,在 det-mAP 下实现了显著改进,在 seg-mAP 下取得了令人印象深刻的结果。
Mar, 2024
本研究旨在解决现有时间序列动作检测算法常常在预处理阶段对视频进行下采样和采样恢复所带来的时间量化误差问题,并介绍了一种新的基于高斯分布的模型无关的后处理方法,称为 Gaussian Approximated Post-processing (GAP),通过此方法可以在子片段级别上实现时间边界推断,在多项挑战性基准测试中,GAP 已经被证明可以显著提高各种预训练 TAD 模型的性能,并且可以与模型训练集成以进一步提高性能。
Nov, 2022
本研究呈现了 ZEETAD,这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法,通过最小程度地更新冻结的 CLIP 编码器,实现对未见过的动作类别的辨别能力增强,并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。
Nov, 2023