测试时零样本时序动作定位

Apr, 2024

Test-Time Zero-Shot Temporal Action Localization

Benedetta Liberatori, Alessandro Conti, Paolo Rota, Yiming Wang, Elisa Ricci

TL;DR通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Abstract

zero-shot temporal action localization (zs-tal) seeks to identify and locate actions in untrimmed videos unseen during training. Existing

zero-shot temporal action localization zs-tal test-time adaptation temporal action localization vlm

发现论文，激发创造

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

STAT: 通往可推广的时间动作定位

提出了一种弱监督时序动作定位算法 STAT，通过引入自监督时序自适应教师模块和对齐模块，在不同数据分布下显著提高了动作定位方法的泛化能力。

Apr, 2024

基于视觉 - 语言提示的零样本时序动作检测

本文提出了一种基于 Vision-LanguagE prompting (STALE) 的零样本学习时空动作检测模型，通过打破定位和分类之间的依赖关系来消除错误传播，有效解决了序列定位和分类设计中的困难，实验证明我们的模型在标准 ZS-TAD 视频基准上显著优于现有的最先进的推荐方案，在监督式 TAD 上也胜过近期的强竞争对手。该模型的 PyTorch 实现可在链接中获取。

Jul, 2022

动作敏感度学习用于时间动作定位

本研究提出了一种 Action Sensitivity Learning 框架，旨在识别和定位动作示例，并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明，该框架在多种场景下均优于现有技术，达到了最高的平均 mAP 值。

May, 2023

无监督的时序动作定位：基于自主学习的渐进式学习

提出了一种新颖的自适应递增学习模型，通过改进聚类置信度和可变速增量实例学习策略的设计，提高无监督时间动作定位的效果。

Dec, 2023

通过学习明确的动作和情境子空间，实现弱监督的时间行为定位

通过学习两个特征子空间（分别专门用于行为和背景）并利用时空运动预测来促进两个特征子空间的学习，本文提出了一种解决弱监督时间动作本地化的方法，该方法在 THUMOS14、ActivityNet v1.2 和 v1.3 数据集上优于现有的 WS-TAL 方法。

Mar, 2021

基于自然对抗性互相正则化的自下而上时域动作定位

本文针对时间行为定位（TAL）在不带剪辑的视频中查找特定动作片段方面，深入研究了现有方法在模拟这些阶段时，忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项，使整个框架可以在端对端优化过程中适应这些潜在约束条件，并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明，本方法在定量和定性上都优于基线，并且所提出的正则化方法还可以推广到其他 TAL 方法（例如，TSA-Net 和 PGCN）。

Feb, 2020

ZEETAD：适用于零样本端到端时间动作检测的预训练视觉 - 语言模型的调整

本研究呈现了 ZEETAD，这是一个基于 Transformer 和 CLIP 模块的零样本时间动作检测方法，通过最小程度地更新冻结的 CLIP 编码器，实现对未见过的动作类别的辨别能力增强，并展示了其在零样本时间动作检测和从 ViL 模型到未见动作类别的有效知识传递方面的卓越性能。

Nov, 2023

OpenTAL: 面向开放集合的时序动作定位

本文提出了 OpenTAL 框架，以 Evidential Deep Learning 为基础解决了开放场景下不可避免的未知动作问题，该框架由三个方面组成：具有不确定性的动作分类、动作性预测和时间位置回归，实验结果证明了该方法的有效性。

Mar, 2022

具有查询自适应变形器的小样本时间动作定位

本研究提出了一种新的少样本学习 (temporal action localization) 设置，使用未剪裁的视频来动态适应新类别和每个视频，同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现这一点，从而在两个行动定位基准测试中显著地优于所有现有方法。

Oct, 2021