E2E-LOAD: 端到端在线长视频动作检测
本文介绍了一种基于端到端学习的方法进行时间动作检测,相对于只有检测头优化的方法,端到端学习可以带来多达 11% 的性能改进,并针对影响 TAD 性能和速度的多种设计选择进行了深入研究,并提出了更高效的检测器。
Apr, 2022
通过降低训练内存消耗,本研究提出了一种新颖的轻量级模块 —— 时间信息适配器(TIA),有效地增加了时间动作检测(TAD)系统的规模和输入视频的帧数,从而显著提高了检测性能。
Nov, 2023
我们提出了一种新颖的端到端基于骨架的模型,称为 Action-OOD,用于识别人类动作中的 ODD,通过引入基于注意力的特征融合块和能量损失函数,我们的模型在识别未知类别的能力和分类准确性方面表现出了优越的性能。
May, 2024
介绍了一种新型的一阶段行为检测变压器(OADT)模型,能够同时识别视频片段的种类和时间边界,并通过多种特征组合得到最终的 21.28%动作 mAP 测试结果,位列行为检测挑战赛第一名。
Jun, 2022
提出了一种基于随机森林的在线动作检测框架,使用计算效率高的骨骼关节特征和通用 CNN 特征,通过时间关系构造 RF 的新分割函数,并在挑战性数据集上显著提高了准确性。
Oct, 2016
本文提出了一个新的 Transformers 编码器 - 解码器框架 OadTR 用于在线行动检测,该模型能够同时编码历史信息并预测未来内容,性能优于目前基于 RNN 的方法。
Jun, 2021
提出了一种多尺度动作学习变压器(MALT)方法,包括用于特征融合的新颖循环解码器、多个编码分支的分层编码器和使用稀疏注意力的显式帧评分机制,该方法在两个基准数据集(THUMOS'14 和 TVSeries)上取得了优于现有模型的性能。
May, 2024
通过结合动作预测和在线动作检测,我们提出了一种统一的模型 JOADAA,能够覆盖在线动作检测中未来信息的缺失依赖关系,并在 THUMOS'14、CHARADES 和 Multi-THUMOS 三个具有挑战性的数据集上取得了最优结果。
Sep, 2023
我们提出了一种全面的端到端时序动作检测变换器,它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程,而且显著改善了查询型检测器的性能。
Apr, 2024