- ECCVDyFADet: 动态特征聚合用于时序动作检测
该研究提出了一种基于神经网络的时间动作检测模型,利用动态特征聚合和自适应参数学习来提取并建模不同时间长度的动作实例,实现了在多个挑战性时间动作检测基准测试中具有良好性能的目标。
- UniMD: 迈向统一的时刻检索和时间动作检测
通过提出统一的时刻检测架构 UniMD 以及两种任务融合学习方法,本论文研究了时态动作检测(TAD)和时刻检索(MR)之间的潜在协同效应,并在多个数据集上实现了最先进的结果。
- TE-TAD:基于时间对齐的坐标表达的全端到端时域行动检测
我们提出了一种全面的端到端时序动作检测变换器,它通过整合时间对齐的坐标表达式来解决依赖手工组件的查询型检测器在时序动作检测中的问题。我们的方法不仅简化了时序动作检测过程,而且显著改善了查询型检测器的性能。
- CVPR双重 DETR 用于多标签时间动作检测
提出了一种新的双层查询型时态行动检测框架 DualDETR,在多标签 TAD 基准测试中表现出优于现有最先进方法的性能,在 det-mAP 下实现了显著改进,在 seg-mAP 下取得了令人印象深刻的结果。
- CVPR评估时间动作检测模型对时间损坏的鲁棒性
该研究建立了两个时间相关的损坏性能基准,并分析了七种不同的时间行为检测方法的鲁棒性,发现现有方法对于时间损坏很容易出现性能下降,特别是在行为定位方面。研究还提出了一种简单而有效的鲁棒训练方法,能够防御时间损坏并在清晰数据上获得改进。该研究将 - 低功耗连续远程行为定位与事件摄像机
采用事件相机记录放置在南极的繁殖企鹅群中的数据,使用计算机视觉方法进行行为量化,通过时间动作检测任务确定行为的起始和结束时间,证明事件相机在野生动物观察中的低功耗特性以及对各种光照条件的鲁棒性,为开展新的跨学科研究提供了契机。
- 针对未剪辑视频的短期 Transformer 动作检测的调整
设计了一种适应预训练的 ViT 模型作为统一的长视频 Transformer 的新机制,以捕捉不同片段间的精细关系,并保持较低的计算开销和内存消耗,实现高效的时间动作检测。
- 跨 1000 帧的 10 亿参数端到端时序动作检测
通过降低训练内存消耗,本研究提出了一种新颖的轻量级模块 —— 时间信息适配器(TIA),有效地增加了时间动作检测(TAD)系统的规模和输入视频的帧数,从而显著提高了检测性能。
- ZEETAD:适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整
本研究呈现了 ZEETAD,这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法,通过最小程度地更新冻结的 CLIP 编码器,实现对未见过的动作类别的辨别能力增强,并展示了其在零样本时间动作检测和从 ViL 模型 - 边界离散化和可靠分类网络用于时间动作检测
混合方法的时空动作检测在融合基于锚点和不基于锚点的方法上取得了显著性能,但仍然存在两个关键问题:蛮力融合和手工设计的锚点影响了混合方法的性能和实际应用,以及动作类别预测中大量的误报影响了检测性能。本文提出了一种新颖的边界离散和可靠分类网络( - CVPR增强即时可辨性的时间动作定位
基于 TriDet 模型的时间动作检测(TAD)在多个 TAD 数据集上表现出鲁棒性和最先进的性能,包括分层(多标签)TAD 数据集。
- ICCV自反馈 DETR 用于时态行为检测
通过利用解码器的交叉注意映射以重新激活自注意模块,我们提出了一种名为 Self-DETR 的新型框架来解决 TAD 中的时间折叠问题,并通过保持所有层次上的高多样性注意来证明其有效性。
- 视频中的时间动作检测引导进展
我们提出了一个新的框架 —— 动作进化网络(APN),用于视频中的时间动作检测(TAD)。该框架通过检测动作演化过程来定位视频中的动作,并通过训练神经网络来识别动作进程。该框架具有三个主要优势:(1) 我们的神经网络端到端地训练,与优化单独 - 视频活动定位的边界去噪
提出了一种称为 DenoiseLoc 的编码器 - 解码器模型,从去噪的角度研究了视频活动定位问题,通过边界去噪来预测具有精确边界的活动,能够提高准确性和收敛速度,并在多个视频活动理解任务上取得了最先进的性能。
- CVPR基于 RGB 的时间动作检测的交叉模态分解蒸馏
本文介绍了一种基于交叉模态蒸馏的分解式跨空间学习框架,通过学习 RGB 和运动表征并结合两者来完成动作定位,极大地提高了基于 RGB 的动作检测器的性能,该框架不受骨干网络和检测头的影响。
- DiffTAD: 带有提案去噪扩散的时间动作检测
本文提出了一种使用扩散去噪的新时域动作检测(TAD)方法,名为 DiffTAD。该方法采用生成建模方法,而非以往判别式学习方法,借助 Transformer decoder 中引入的时间位置查询设计来建立去噪过程,通过交叉步选择性调节算法来 - CVPRTriDet: 基于相对边界建模的时间动作检测
本文提出了一种一阶段框架 TriDet,用于时间动作检测,其结合了 Trident-head 和 SGP-based 特征金字塔的快速、高效特性,取得了在三个基准测试中的最优性能,表现出优异的时间动作检测结果。
- CVPR后处理时间性行为检测
本研究旨在解决现有时间序列动作检测算法常常在预处理阶段对视频进行下采样和采样恢复所带来的时间量化误差问题,并介绍了一种新的基于高斯分布的模型无关的后处理方法,称为 Gaussian Approximated Post-processing - 多模态少样本时间动作检测
本文提出了一种新颖的多模态 Few-shot TAD 问题,利用新的类别名称和少量支撑视频联合处理,使用 MUPPET 方法来有效地将预先训练的视觉和语言模型耦合在一起,实现了当前最优表现,同时可拓展解决少样本目标检测问题。
- ECCV基于层级原子动作的细粒度视频弱监督时序动作检测
本文提出一种弱监督的方法来检测细粒度视频动作,通过自我监督聚类获取可重复和自动发现的原子动作集合,并结合语义标签层次将原子动作映射到细粒度和粗粒度行动标签,最终构建了四个层次的视频可视化表示层次,在两个大型数据集上实验表明该方法在细粒度动作