无监督的时序动作定位:基于自主学习的渐进式学习
本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数,通过自动发现分段级别监督训练出定位模型,模型在 THUMOS'14 数据集中,IoU 阈值为 0.5 时,平均精度从 13.7% 提高至 21.2%,在 ActivityNet 数据集中,平均精度从 7.4% 提高至 27.3%。
Jul, 2018
通过学习两个特征子空间(分别专门用于行为和背景)并利用时空运动预测来促进两个特征子空间的学习,本文提出了一种解决弱监督时间动作本地化的方法,该方法在 THUMOS14、ActivityNet v1.2 和 v1.3 数据集上优于现有的 WS-TAL 方法。
Mar, 2021
本文针对时间行为定位(TAL)在不带剪辑的视频中查找特定动作片段方面,深入研究了现有方法在模拟这些阶段时,忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项,使整个框架可以在端对端优化过程中适应这些潜在约束条件,并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明,本方法在定量和定性上都优于基线,并且所提出的正则化方法还可以推广到其他 TAL 方法(例如,TSA-Net 和 PGCN)。
Feb, 2020
提出了一种用于点级别监督时序动作定位的新方法,通过生成和评估具有灵活时长的动作提案来定位动作,利用聚类算法生成密集伪标签提供更强的监督,并利用精细的对比损失进一步提高伪标签的质量,实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。
Oct, 2023
本文提出了自监督预训练的假动作定位任务(PAL)用于未监督的视频特征编码器的预训练,目的是为了提高时间动作定位任务的性能。与现有的方法相比,PAL 引入了一种时间等价对比学习范例,具有更好的适应性和性能。
Mar, 2022
该研究提出了一种名为双向语义一致性约束的方法来改善当前弱监督下的视频分类及定位发现问题。该方法采用时间相关增强来打破正样本动作与其 co-scene 动作之间的相关性,通过语义一致性约束来获得足够的信息区分两者,从而较好地应用于当前的 WTAL 方法,并且在 THUMOS14 和 ActivityNet 数据集上取得了较好的性能。
Apr, 2023
本研究提出了一种 Action Sensitivity Learning 框架,旨在识别和定位动作示例,并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明,该框架在多种场景下均优于现有技术,达到了最高的平均 mAP 值。
May, 2023
通过引入一种新的方法 (T3AL),该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation,并采用自我监督学习的启发式程序进行动作区域定位,使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案,实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法,证实了测试时间自适应方法的益处。
Apr, 2024
本文介绍了一种弱监督的时间动作定位方法,该方法只需要视频级别的动作实例作为训练数据,在视频的每个片段中生成行为标签,并学习不同动作实例之间的相似性,实验表明该方法在两个视频数据集上取得了有竞争力的结果。
Jan, 2020