针对视频的弱监督时间动作定位的查询 - 键注意力建模

May, 2023

针对视频的弱监督时间动作定位的查询 - 键注意力建模

Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization

Xijun Wang, Aggelos K. Katsaggelos

TL;DR本文提出了一种名为 VQK-Net 的网络，它采用了视频特异性的查询 - 键（query-key）注意力建模，通过学习每个输入视频每个动作类别的唯一查询来检测目标视频中的相应动作并定位，从而实现弱监督的时间动作定位，并在 THUMOS14，ActivityNet1.2 和 ActivityNet1.3 三个数据集上获得了最先进的性能结果。

Abstract

weakly-supervised temporal action localization aims to identify and localize the action instances in the untrimmed videos with only video-level action labels. When humans watch videos, we can adapt our abstract-l

weakly-supervised temporal action localization vqk-net query-key attention modeling state-of-the-art performance

发现论文，激发创造

基于生成式注意模型的弱监督动作定位

本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法，通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类，从而有效地解决了动作与上下文之间相互混淆的问题。

Mar, 2020

层次结构潜在注意力建模的弱监督动作定位

本文提出了一种基于注意力机制的分层结构潜在模型，用于学习特征语义的时间变化，通过两个组件进行实现：第一个是无监督的变点检测模块，通过在时间层次中学习视频特征的变化率来检测变点；第二个是基于注意力的分类模型，将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验，结果表明我们的方法优于当前最先进的方法，并且甚至与全监督方法具有可比较的性能。

Aug, 2023

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

基于背景建模的弱监督动作定位

该研究提出了一种潜在方法，利用注意力模型进行弱监督学习，其可以检测出影片中的动作，而无需特定类别的标签，并利用弱监督学习进行比较准确的学习和定位，成功地应用于 Instagram 中的不加筛选的视频之间。

Aug, 2019

一种用于弱监督时序动作定位的混合注意机制

本论文提出了一种名为 HAM-Net 的新颖框架，该框架采用混合注意机制来解决现有方法中存在的问题，包括对背景活动的建模和完整性的捕捉，实验证明其在多个数据集上均取得了最新的最佳性能。

Jan, 2021

时间查询网络用于细粒度视频理解

本文介绍了一种基于 Temporal Query Network 的时空查询机制，通过稠密采样与随机特征库更新方式实现了对细粒度行为的分类，最终在 FineGym 和 Diving48 的数据集上达到了当前最佳效果。

Apr, 2021

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020

基于代表性片段知识传播的弱监督时态动作定位

该研究提出了一种代表性摘要和传播框架，通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签，从而解决了分类和定位之间的差异问题，并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。

Mar, 2022

ACM-Net: 弱监督时间动作定位的动作上下文建模网络

本文提出了一种称为 ACM-Net 的动作上下文建模网络，它在体现动作实例、上下文和非动作背景部分的同时，采用了三分支注意模块来给每个时间点分手概率，并构建了三分支类激活序列来分别表示这三部分，通过在 THUMOS-14 和 ActivityNet-1.3 上的实验证明了这种方法能够胜过当前最先进的方法，甚至能够与完全监督方法达到可比较的性能水平。

Apr, 2021

跨视频上下文知识的探索和利用，减少弱监督时序动作定位的歧义

通过在数据集中探索并利用跨视频的上下文知识，我们的研究提供了一种新方法来间接改善对细粒度行动模式的整体理解，并减少模糊性。通过提出一个端到端框架，我们的方法在几个数据集上得到了比最先进方法更好的表现。

Aug, 2023