基于视觉 - 语言提示的零样本时序动作检测

ECCVJul, 2022

基于视觉 - 语言提示的零样本时序动作检测

Zero-Shot Temporal Action Detection via Vision-Language Prompting

Sauradip Nag, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

TL;DR本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型，通过打破定位和分类之间的依赖关系来消除错误传播，有效解决了序列定位和分类设计中的困难，实验证明我们的模型在标准 ZS-TAD 视频基准上显著优于现有的最先进的推荐方案，在监督式 TAD 上也胜过近期的强竞争对手。该模型的 PyTorch 实现可在链接中获取。

Abstract

Existing temporal action detection (TAD) methods rely on large training data including segment-level annotations, limited to recognizing previously seen classes alone during inference. Collecting and annotating a large training set for each class of interest is costly and hence unscala

temporal action detection zero-shot learning vision-language stale pytorch

发现论文，激发创造

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

无需提议的半监督时空动作检测

本文提出了一种基于 SPOT 的半监督时间动作检测模型，通过并行化的定位和分类架构有效地消除了定位和分类之间的错误传播路径，实现了对自我监督模型预训练的新颖预文本任务，通过在两个标准基准测试上的实验证明了我们的 SPOT 在许多方面都优于现有的最先进的替代方案，此外，他们还提供了 SPOT 的 PyTorch 实现。

Jul, 2022

ZSTAD：零样本时序活动检测

提出了一种称为零样本时间活动检测（ZSTAD）的新任务设置，其中可以检测到没有在训练中见过的活动。使用 R-C3D 进行设计并采用考虑到活动标签和超类嵌入的创新损失函数对网络进行优化，实验结果对于检测到未知活动方面表现出了良好的性能。

Mar, 2020

交互感知触发的零样本时空动作检测

本文通过使用预训练的视觉 - 语言模型提取图像和文本特征，以及对这些特征进行建模，最终实现零样本的时空动作检测。实验结果表明，本文的交互模块和提示使得视觉 - 语言特征更好地对齐，从而实现了优秀的检测准确率。

Apr, 2023

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021

开放词汇空间时间动作检测

通过对现有 STAD 数据集建立两个基准，并提出基于预训练视频 - 语言模型的简单而有效的方法，我们在新的类别上取得了令人期待的性能，通过训练一个在有限的基本类别上的模型来具备好的泛化性能。

May, 2024

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

单次拍摄的时间动作检测

该研究提出了一种基于 1D 时间卷积层的单次动作检测器（SSAD）网络来直接检测未修剪视频中的动作实例以提高检测精度。在改进检测精度的过程中，它探讨了输入特征类型和融合策略，并在两个具有挑战性的数据集上进行了广泛的实验，证明了在 THUMOS 2014 和 MEXaction2 的评估过程中，SSAD 的 mAP 比其他最先进的系统增加了很多。

Oct, 2017

通过全局分割掩码学习实现无需提案的时间动作检测

该研究提出了一种无需 proposal 的时序行为检测模型 TAGS，该模型采用全局分割掩模学习每个动作实例的时序表达，通过针对全局时序表达进行检测，避免了 proposal 生成及评估所带来的高复杂度，从而在较低计算成本的情况下取得了当前最先进的性能。

Jul, 2022