低保真端到端视频编码器预训练用于时间动作定位

Mar, 2021

低保真端到端视频编码器预训练用于时间动作定位

Low-Fidelity End-to-End Video Encoder Pre-training for Temporal Action Localization

Mengmeng Xu, Juan-Manuel Perez-Rua, Xiatian Zhu, Bernard Ghanem, Brais Martinez

TL;DR提出了一种新的 LoFi 视频编码器预训练方法，通过减少时空或时空分辨率的 mini-batch 组合来实现对编码器的端到端优化，有助于解决任务不一致性问题并提供更有效的特征表示，从而显著提高了现有 TAL 方法的性能。

Abstract

temporal action localization (TAL) is a fundamental yet challenging task in video understanding. Existing TAL methods rely on pre-training a video encoder through action classification supervision. This results i

temporal action localization end-to-end optimization lofi pre-training video encoder task discrepancy

发现论文，激发创造

无监督预训练用于时间动作定位任务

本文提出了自监督预训练的假动作定位任务（PAL）用于未监督的视频特征编码器的预训练，目的是为了提高时间动作定位任务的性能。与现有的方法相比，PAL 引入了一种时间等价对比学习范例，具有更好的适应性和性能。

Mar, 2022

LoSA：用于缩放端到端时序动作定位的长短程适配器

通过引入第一个专门为处理未修剪视频的 TAL 设计的内存和参数高效的背骨适配器 LoSA，本研究在标准 TAL 基准测试 THUMOS-14 和 ActivityNet-v1.3 上明显优于现有方法，通过使视频骨干可以适应超过十亿参数的模型，如 VideoMAEv2（ViT-g），有效地扩展了端到端骨干适应的能力，并利用了这些模型进行非仅在头部的迁移学习。

Apr, 2024

Re^2TAL：针对可逆时间行为定位重构预训练视频主干网络

该论文提出了一种基于可逆网络的端到端方法 Re2TAL，用于时间行为定位（TAL），通过网络重连机制，将预训练的视频模型转换为基于可逆模块的模型，以提高模型训练效率和表现。使用此方法，只使用 RGB 模态的 Re2TAL 在 ActivityNet-v1.3 上达到 37.01％的平均 mAP，并在 THUMOS-14 上的 tIoU=0.5 时获得 64.9％的 mAP，表现优于其他 RGB-only 方法。

Nov, 2022

无监督的时序动作定位：基于自主学习的渐进式学习

提出了一种新颖的自适应递增学习模型，通过改进聚类置信度和可变速增量实例学习策略的设计，提高无监督时间动作定位的效果。

Dec, 2023

基于自然对抗性互相正则化的自下而上时域动作定位

本文针对时间行为定位（TAL）在不带剪辑的视频中查找特定动作片段方面，深入研究了现有方法在模拟这些阶段时，忽略了它们之间的潜在时间约束。作者提出了 IntraC 和 InterC 两个正则化项，使整个框架可以在端对端优化过程中适应这些潜在约束条件，并在 THUMOS14 和 ActivityNet1.3 两个流行的 TAL 数据集上进行了实验。结果表明，本方法在定量和定性上都优于基线，并且所提出的正则化方法还可以推广到其他 TAL 方法（例如，TSA-Net 和 PGCN）。

Feb, 2020

具有查询自适应变形器的小样本时间动作定位

本研究提出了一种新的少样本学习 (temporal action localization) 设置，使用未剪裁的视频来动态适应新类别和每个视频，同时引入了一个查询自适应变压器 (query adaptive Transformer) 来实现这一点，从而在两个行动定位基准测试中显著地优于所有现有方法。

Oct, 2021

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

TSP: 为定位任务进行的视频编码器时间敏感预训练

该研究提出了一种新的监督预训练范例，通过考虑背景剪辑和全局视频信息，不仅需要训练活动分类，而且还需要训练时序灵敏度，从而显着提高了最近最先进的方法在三个任务中的性能：时间动作本地化，行动建议生成和密集视频字幕。

Nov, 2020

动作敏感度学习用于时间动作定位

本研究提出了一种 Action Sensitivity Learning 框架，旨在识别和定位动作示例，并通过轻量级的 Action Sensitivity Evaluator 和 Action Sensitive Contrastive Loss 实现对应的学习和训练。实验结果表明，该框架在多种场景下均优于现有技术，达到了最高的平均 mAP 值。

May, 2023

AutoLoc: 弱监督时序动作定位

本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数，通过自动发现分段级别监督训练出定位模型，模型在 THUMOS'14 数据集中，IoU 阈值为 0.5 时，平均精度从 13.7% 提高至 21.2%，在 ActivityNet 数据集中，平均精度从 7.4% 提高至 27.3%。

Jul, 2018