ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

Nov, 2023

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

ZEETAD: Adapting Pretrained Vision-Language Model for Zero-Shot End-to-End Temporal Action Detection

Thinh Phan, Khoa Vo, Duy Le, Gianfranco Doretto, Donald Adjeroh...

TL;DR本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Abstract

temporal action detection (TAD) involves the localization and classification of action instances within untrimmed videos. While standard TAD follows fully supervised learning with closed-set setting on large training data, recent →

temporal action detection zero-shot tad vil models dual-localization clip-based module

发现论文，激发创造

基于视觉 - 语言提示的零样本时序动作检测

本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型，通过打破定位和分类之间的依赖关系来消除错误传播，有效解决了序列定位和分类设计中的困难，实验证明我们的模型在标准 ZS-TAD 视频基准上显著优于现有的最先进的推荐方案，在监督式 TAD 上也胜过近期的强竞争对手。该模型的 PyTorch 实现可在链接中获取。

Jul, 2022

使用 Transformer 进行端到端时序动作检测

本研究提出了一种基于 Transformer 的时态动作检测方法，通过少量学习嵌入（称为动作查询）从视频中自适应地提取时间上下文信息，并直接预测动作实例的时间间隔和语义标签，通过三种改进提高本地化意识，实现了端到端的学习，并取得了与现有方法相比的卓越性能。

Jun, 2021

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

ZSTAD：零样本时序活动检测

提出了一种称为零样本时间活动检测（ZSTAD）的新任务设置，其中可以检测到没有在训练中见过的活动。使用 R-C3D 进行设计并采用考虑到活动标签和超类嵌入的创新损失函数对网络进行优化，实验结果对于检测到未知活动方面表现出了良好的性能。

Mar, 2020

一项关于端到端时间动作检测的实证研究

本文介绍了一种基于端到端学习的方法进行时间动作检测，相对于只有检测头优化的方法，端到端学习可以带来多达 11% 的性能改进，并针对影响 TAD 性能和速度的多种设计选择进行了深入研究，并提出了更高效的检测器。

Apr, 2022

单阶段开放词汇的时态行为检测：利用时态多尺度和动作标签特征

开放词汇时态动作检测是一种先进的视频分析方法，它扩展了封闭词汇时态动作检测的能力。

Apr, 2024

增强即时可辨性的时间动作定位

基于 TriDet 模型的时间动作检测（TAD）在多个 TAD 数据集上表现出鲁棒性和最先进的性能，包括分层（多标签）TAD 数据集。

Sep, 2023

多模态少样本时间动作检测

本文提出了一种新颖的多模态 Few-shot TAD 问题，利用新的类别名称和少量支撑视频联合处理，使用 MUPPET 方法来有效地将预先训练的视觉和语言模型耦合在一起，实现了当前最优表现，同时可拓展解决少样本目标检测问题。

Nov, 2022

EZ-CLIP：高效零样本视频行为识别

EZ-CLIP 是对 CLIP 的简单高效改进，通过引入时序视觉提示和新的学习目标，实现了在视频领域的零样本学习和基于视频动作识别的高效训练。

Dec, 2023

稀疏提议优化高质量时序动作检测

本文提出了一种名为 SP-TAD 的方法来应对在时间行为检测上的挑战，其利用了稀疏 proposal 和特征金字塔来构建多尺度特征以准确捕捉行为细节，实验结果表明，该方法取得了与现有最优方法相媲美的性能。

Sep, 2021