本文提出了一个新的 Transformers 编码器 - 解码器框架 OadTR 用于在线行动检测,该模型能够同时编码历史信息并预测未来内容,性能优于目前基于 RNN 的方法。
Jun, 2021
本研究提出了一种基于 Transformer 的时态动作检测方法,通过少量学习嵌入(称为动作查询)从视频中自适应地提取时间上下文信息,并直接预测动作实例的时间间隔和语义标签,通过三种改进提高本地化意识,实现了端到端的学习,并取得了与现有方法相比的卓越性能。
基于 TriDet 模型的时间动作检测(TAD)在多个 TAD 数据集上表现出鲁棒性和最先进的性能,包括分层(多标签)TAD 数据集。
Sep, 2023
本文提出一种解耦网络(DOAD)和基于变换器的模块(TransPC),用于提高视频理解的效率和行为检测的准确性。
Apr, 2023
本文介绍了一种基于端到端学习的方法进行时间动作检测,相对于只有检测头优化的方法,端到端学习可以带来多达 11% 的性能改进,并针对影响 TAD 性能和速度的多种设计选择进行了深入研究,并提出了更高效的检测器。
Apr, 2022
开放词汇时态动作检测是一种先进的视频分析方法,它扩展了封闭词汇时态动作检测的能力。
Apr, 2024
本文提出了一种用于在线动作检测的端对端模型 (E2E-LOAD),使用可训练的骨干网络,提出了一种新的空间 - 时间模型和有效的推理机制,取得了较高的检测性能和较低的计算成本。
Jun, 2023
该研究提出了一种基于 1D 时间卷积层的单次动作检测器(SSAD)网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中,它探讨了输入特征类型和融合策略,并在两个具有挑战性的数据集上进行了广泛的实验,证明了在 THUMOS 2014 和 MEXaction2 的评估过程中,SSAD 的 mAP 比其他最先进的系统增加了很多。
Oct, 2017
我们提出了一种全面的端到端时序动作检测变换器,它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程,而且显著改善了查询型检测器的性能。
提出了一种多尺度动作学习变压器(MALT)方法,包括用于特征融合的新颖循环解码器、多个编码分支的分层编码器和使用稀疏注意力的显式帧评分机制,该方法在两个基准数据集(THUMOS'14 和 TVSeries)上取得了优于现有模型的性能。
May, 2024