- ECCV基于视觉 - 语言提示的零样本时序动作检测
本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型,通过打破定位和分类之间的依赖关系来消除错误传播,有效解决了序列定位和分类设计中的困难,实验证明我们的模型在标准 ZS-TA - ECCV关系查询下的时间行为检测 (ReAct)
本文提出了一种名为 ReAct 的时域动作检测模型,采用编解码框架和动作查询相似于 DETR,使用关系注意力机制和两个损失函数加强动作分类的训练,最后通过预测每个动作查询的本地化质量来区分高质量的查询,该模型在 THUMOS14 上取得了最 - ECCV无需提议的半监督时空动作检测
本文提出了一种基于 SPOT 的半监督时间动作检测模型,通过并行化的定位和分类架构有效地消除了定位和分类之间的错误传播路径,实现了对自我监督模型预训练的新颖预文本任务,通过在两个标准基准测试上的实验证明了我们的 SPOT 在许多方面都优于现 - ECCV通过全局分割掩码学习实现无需提案的时间动作检测
该研究提出了一种无需 proposal 的时序行为检测模型 TAGS,该模型采用全局分割掩模学习每个动作实例的时序表达,通过针对全局时序表达进行检测,避免了 proposal 生成及评估所带来的高复杂度,从而在较低计算成本的情况下取得了当前 - CVPR上下文感知提议网络用于时间动作检测
本技术报告介绍了我们在 CVPR-2022 AcitivityNet 挑战赛中获取的第一名的解决方案,该解决方案旨在为长型未修剪视频中的特定类别的动作实例定位时间边界,并且通过提出 Context-aware Proposal Networ - CVPR一项关于端到端时间动作检测的实证研究
本文介绍了一种基于端到端学习的方法进行时间动作检测,相对于只有检测头优化的方法,端到端学习可以带来多达 11% 的性能改进,并针对影响 TAD 性能和速度的多种设计选择进行了深入研究,并提出了更高效的检测器。
- AAAI通过双重上下文聚合改进临时动作检测的 DCAN
本研究提出了名为 Dual Context Aggregation Network(DCAN)的端到端提案生成方法,以在边界级别和提案级别上汇总上下文以生成高质量的动作提案,从而提高了时间动作检测的性能。
- 稀疏提议优化高质量时序动作检测
本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战,其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节,实验结果表明,该方法取得了与现有最优方法相媲美的性能。
- 仅使用 RGB 流进行时间动作检测
本文提出了一种基于单 RGB 流的简单而有效的一阶段时间动作检测器 DaoTAD,采用数据增强的方法 Image Level Data Augmentation(ILDA)来避免移除光流数据导致的性能下降,结果表明该方法在 ILDA 训练下 - CVPR时间动作检测的关系网络提案
本技术报告介绍了我们在 AcitivityNet 2021 挑战赛中针对时间动作检测任务提出的解决方案。我们通过使用 BMN、slowfast、CSN 和 ViViT 等方法来进行动作分类和特征编码,改进 BMN 算法的提案生成和行为检测以 - 使用 Transformer 进行端到端时序动作检测
本研究提出了一种基于 Transformer 的时态动作检测方法,通过少量学习嵌入(称为动作查询)从视频中自适应地提取时间上下文信息,并直接预测动作实例的时间间隔和语义标签,通过三种改进提高本地化意识,实现了端到端的学习,并取得了与现有方法 - ICCV松弛 Transformer 解码器用于直接行动提议生成
这篇论文提出了 RTD-Net 框架,利用 Transformer 类似的架构直接生成动作建议,通过在时间范围内更好地捕捉长程时间信息的边界注意模块来应对视频中的缓慢先前,通过松弛匹配方案来缓解对每个真实值的单一分配的限制,并使用三分支头明 - 多层监督的时间动作检测
研究介绍在视频中训练时序动作检测需要大量标记数据,使用半监督学习和未标记数据可以降低标记成本。提出了一个半监督动作检测任务,设计了无监督前景注意力和信息瓶颈方法来提高性能并评估其在标记,未标记和弱标记数据下的表现。
- 多级时空金字塔网络用于动作检测
本文提出多级时间金字塔网络(MLTPN)方法,采用多级特征金字塔结构和特征融合模块提高时域动作检测的准确性,在 THUMOS'14 数据集上取得了显著的高于先前最先进的方法的表现。
- CVPRG-TAD: 时间动作检测的子图定位
本文提出了一种基于图卷积网络的模型来自适应地整合多层次语义上下文到视频特征中,并将时态行为检测作为一个子图定位问题。实验证明,该模型不需额外监督就可以发现有效视频上下文,且在两个检测评测中均达到最优性能。
- CVPR连续时间嵌入的无监督动作类别学习
该研究提出了一种基于连续时间嵌入的无监督学习方法,通过鉴别视觉序列中课程的聚类段以实现发现非结构化视频中的动作。该方法被评估在三个数据集上,可以适用于未知情景下的视觉内容分析
- 在线动作检测的时序循环网络
本文提出了一种新颖的框架 Temporal Recurrent Network (TRN) 来模拟视频帧的时间上下文,在线执行行动检测并预测即将发生的行动,实现了累积历史证据和预测未来信息相结合的在线识别方式,并在 HDD、TVSeries - 逐步擦除、逐一收集:一种弱监督的时间动作检测器
本文提出一种基于分类器的弱监督时间行为检测方法,使用条件随机场对时序定位输出进行精细化处理,并在 THUMOS'14 和 ActivityNet 数据集上取得了较好的检测效果。
- 单次拍摄的时间动作检测
该研究提出了一种基于 1D 时间卷积层的单次动作检测器(SSAD)网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中,它探讨了输入特征类型和融合策略,并在两个具有挑战性的数据集上进行了广泛的实验,证明了在 THUMO - 级联边界回归用于时间动作检测
本文介绍了一种基于 Cascaded Boundary Regression 模型的两阶段时间性行动检测方法,通过在第一和第二阶段分别检测类不可知提议和特定操作,使用时空坐标回归来细化滑动窗口的时间边界,有效提高了检测性能。在 THUMOS