点级监督的行动定位

May, 2018

Pointly-Supervised Action Localization

Pascal Mettes, Cees G. M. Snoek

TL;DR该论文提出一种基于点监督的行为识别方法，利用无监督的时空提案提取视频中的候选区域，并通过稀疏的点注释指导模型训练，在测试时通过伪点对提案进行筛选，实验结果表明该方法在行为识别上与传统的注释方法不相上下，且能够更好地应对数据的噪声与稀疏性。

Abstract

This paper strives for spatio-temporal localization of human actions in videos. In the literature, the consensus is to achieve localization by training on bounding box annotations provided for each frame of each training video. As annotating boxes in video is expensive, cumbersome and

spatio-temporal localization action recognition point supervision multiple instance learning pseudo-points

发现论文，激发创造

基于点标注的提议的动作定位

该研究旨在通过在视频中对稀疏的一些帧上标注动作的点，利用重叠度量和多实例学习优化的目标，而非繁琐的矩形框注释来提高视频中行动的时空本地化性能，并展示了从 Hollywood2 训练和测试视频得到的 Spatio-temporal 行动注释，即《Hollywood2Tubes》。

Apr, 2016

从视频标签和伪标注中本地化动作

本文提出了一种使用视觉线索代替手动点注释的伪注释，引入了五种伪注释，并提出了一个自动选择和组合它们的相关性度量，从而实现只通过分类标签确定视频中动作的时空位置的算法。在具有挑战性的行动定位数据集上的彻底评估显示，我们达到了与完全盒子监督结果相当的结果。我们还展示了伪注释如何在测试期间被利用来改善弱监督和强监督本地化器。

Jul, 2017

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

POTLoc: 基于伪标签的点监督 Transformer 模型用于时态动作定位

这篇论文提出了 POTLoc，一种基于伪标签导向的变压器，利用仅有的点级注释来进行弱监督的动作定位。POTLoc 通过自我训练策略来识别和追踪连续的动作结构，结合了变压器和时间特征金字塔的架构，通过伪标签来辅助变压器更好地学习动作动态，在 THUMOS'14 和 ActivityNet-v1.2 数据集上表现出优异性能，相较于现有的点级监督方法平均 mAP 提升了 5%。

Oct, 2023

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

从点中学习行为完整性，弱监督时空动作定位

本文提出了一种新框架，生成密集伪标签以提供完整性指导，通过优化序列来学习完整性，并引入两个新的损失以对比动作分数和特征相似性，实现了动作实例的准确定位，相较于现有最先进的方法，这种方式的标注成本还更低。

Aug, 2021

稀疏空间监督下的人类行为定位

提出了一种利用稀疏空间监督的方法来进行时空人类行为定位，该方法结合了最先进的人类检测技术和基于检测的跟踪方法来提取人物轨迹，并使用稀疏的空间标注帧来选择正负管道，以实现有效地学习基于稠密轨迹或 CNN 的时空动作检测器。

May, 2016

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020