STAT: 通往可推广的时间动作定位

Apr, 2024

STAT: Towards Generalizable Temporal Action Localization

Yangcen Liu, Ziyi Liu, Yuanhao Zhai, Wen Li, David Doerman...

TL;DR提出了一种弱监督时序动作定位算法 STAT，通过引入自监督时序自适应教师模块和对齐模块，在不同数据分布下显著提高了动作定位方法的泛化能力。

Abstract

weakly-supervised temporal action localization (WTAL) aims to recognize and localize action instances with only video-level labels. Despite the significant progress, existing methods suffer from severe performance degradation when transferring to different distributions and thus may ha

weakly-supervised temporal action localization generalizable temporal action localization stat refinement module alignment module

发现论文，激发创造

跨视频上下文知识的探索和利用，减少弱监督时序动作定位的歧义

通过在数据集中探索并利用跨视频的上下文知识，我们的研究提供了一种新方法来间接改善对细粒度行动模式的整体理解，并减少模糊性。通过提出一个端到端框架，我们的方法在几个数据集上得到了比最先进方法更好的表现。

Aug, 2023

通过学习明确的动作和情境子空间，实现弱监督的时间行为定位

通过学习两个特征子空间（分别专门用于行为和背景）并利用时空运动预测来促进两个特征子空间的学习，本文提出了一种解决弱监督时间动作本地化的方法，该方法在 THUMOS14、ActivityNet v1.2 和 v1.3 数据集上优于现有的 WS-TAL 方法。

Mar, 2021

双向语义一致性约束的弱监督时间动作定位

该研究提出了一种名为双向语义一致性约束的方法来改善当前弱监督下的视频分类及定位发现问题。该方法采用时间相关增强来打破正样本动作与其 co-scene 动作之间的相关性，通过语义一致性约束来获得足够的信息区分两者，从而较好地应用于当前的 WTAL 方法，并且在 THUMOS14 和 ActivityNet 数据集上取得了较好的性能。

Apr, 2023

基于局部全局背景建模的弱监督时序动作定位

本研究基于 BaSNet 的 WS-TAL 任务使用 MIL 训练了 Local-Global Background Modeling Network（LGBM-Net）模型，通过集成多个模型获得最终检测结果，测试集 mAP 达到 22.45%。

Jun, 2021

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

无监督的时序动作定位：基于自主学习的渐进式学习

提出了一种新颖的自适应递增学习模型，通过改进聚类置信度和可变速增量实例学习策略的设计，提高无监督时间动作定位的效果。

Dec, 2023

AutoLoc: 弱监督时序动作定位

本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数，通过自动发现分段级别监督训练出定位模型，模型在 THUMOS'14 数据集中，IoU 阈值为 0.5 时，平均精度从 13.7% 提高至 21.2%，在 ActivityNet 数据集中，平均精度从 7.4% 提高至 27.3%。

Jul, 2018

跨模态共识网络用于弱监督时间动作定位

本文提出了一种跨模态共识网络以解决弱监督时间动作定位任务中现有特征提取器提取的不是任务特定特征的问题，并使用了跨模态注意机制和相互学习来产生更有代表性的特征。在 THUMOS14 和 ActivityNet1.2 数据集上的实验结果表明，此方法产生的特征实现了时间动作定位的最新成果。

Jul, 2021

利用文本信息提升弱监督的时间动作检测

本文提出了一种利用文本信息来改进弱监督时间动作定位方法的算法，包括建立基于行为分类标签的文本描述，并通过文本分析找到与之相关的时间段以及通过视频分析来完整文本描述的生成目标。该方法在 THUMOS14 和 ActivityNet1.3 上取得了最领先性能，并且可以无缝地应用于现有方法，进一步提高其性能。

May, 2023