多模态引导的开放词汇时态行为定位

Jun, 2024

多模态引导的开放词汇时态行为定位

Open-Vocabulary Temporal Action Localization using Multimodal Guidance

Akshita Gupta, Aditya Arora, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan...

TL;DROVFormer 是一种新型的开放词汇框架，通过使用任务特定的提示作为输入，利用大型语言模型获得行动类别的丰富描述，并引入了交叉注意机制来学习类别表示和帧级视频特征之间的对齐，以及采用了两阶段训练策略，包括与更大词汇数据集的训练和对下游数据的微调，从而推广到新颖类别。在 THUMOS14 和 ActivityNet-1.3 基准测试上的综合评估证明了我们方法的有效性。

Abstract

open-vocabulary temporal action localization (OVTAL) enables a model to recognize any desired action category in videos without the need to explicitly curate training data for all categories. However, this flexibility poses significant challenges, as the model must recognize not only t

open-vocabulary temporal action localization ovformer task-specific prompts cross-attention mechanism two-stage training strategy

发现论文，激发创造

OpenTAL: 面向开放集合的时序动作定位

本文提出了 OpenTAL 框架，以 Evidential Deep Learning 为基础解决了开放场景下不可避免的未知动作问题，该框架由三个方面组成：具有不确定性的动作分类、动作性预测和时间位置回归，实验结果证明了该方法的有效性。

Mar, 2022

单阶段开放词汇的时态行为检测：利用时态多尺度和动作标签特征

开放词汇时态动作检测是一种先进的视频分析方法，它扩展了封闭词汇时态动作检测的能力。

Apr, 2024

开放词汇空间时间动作检测

通过对现有 STAD 数据集建立两个基准，并提出基于预训练视频 - 语言模型的简单而有效的方法，我们在新的类别上取得了令人期待的性能，通过训练一个在有限的基本类别上的模型来具备好的泛化性能。

May, 2024

测试时零样本时序动作定位

通过引入一种新的方法 (T3AL)，该方法对 Temporal Action Localization (TAL) 进行 Test-Time adaptation，并采用自我监督学习的启发式程序进行动作区域定位，使用最先进的字幕模型提取的帧级文本描述进一步完善动作区域提案，实验证明 T3AL 在 THUMOS14 和 ActivityNet-v1.3 数据集上明显优于基于最先进视觉语言模型的零样本方法，证实了测试时间自适应方法的益处。

Apr, 2024

生成用于开放词汇视频动作识别的动作条件提示

通过创新地将视频模型与大型语言模型相结合，本研究采用基于行动条件的提示方法来增强文本嵌入的人类先验知识，从而在开放词汇视频动作识别中实现了新的最佳性能，并具有优越的可解释性。

Dec, 2023

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

PLOT-TAL -- 基于优化输运的少样本时序动作定位的提示学习

本论文介绍了一种新颖的少样本学习中的时间动作定位 (TAL) 方法，通过在实际视频中泛化不同情境的能力来解决常规单提示学习方法存在的过拟合问题。采用多提示学习框架，增强了每个动作的一组多样化提示，更有效地捕捉通用特征并减少过拟合风险。此外，利用最优输运理论，高效地将这些提示与动作特征对齐，优化了适应视频数据多方面特性的综合表示。实验证明了我们提出的多提示最优输运方法在 THUMOS-14 和 EpicKitchens100 的标准数据集上能够显著提高少样本 TAL 方法的定位准确性和鲁棒性，突出了其有效性。

Mar, 2024

STAT: 通往可推广的时间动作定位

提出了一种弱监督时序动作定位算法 STAT，通过引入自监督时序自适应教师模块和对齐模块，在不同数据分布下显著提高了动作定位方法的泛化能力。

Apr, 2024

AutoLoc: 弱监督时序动作定位

本文提出了一种基于弱监督的时序动作定位框架 AutoLoc, 运用 Outer-Inner-Contrastive (OIC) 损失函数，通过自动发现分段级别监督训练出定位模型，模型在 THUMOS'14 数据集中，IoU 阈值为 0.5 时，平均精度从 13.7% 提高至 21.2%，在 ActivityNet 数据集中，平均精度从 7.4% 提高至 27.3%。

Jul, 2018

视频关系提取开放词汇

通过动作为中心的关系三元组，以开放词汇的视频关系抽取为视角，提出了 Moments-OVRE 数据集，并在该任务上对现有的跨模态生成模型进行了基准测试。

Dec, 2023