从视频标签和伪标注中本地化动作

Jul, 2017

从视频标签和伪标注中本地化动作

Localizing Actions from Video Labels and Pseudo-Annotations

Pascal Mettes, Cees G. M. Snoek, Shih-Fu Chang

TL;DR本文提出了一种使用视觉线索代替手动点注释的伪注释，引入了五种伪注释，并提出了一个自动选择和组合它们的相关性度量，从而实现只通过分类标签确定视频中动作的时空位置的算法。在具有挑战性的行动定位数据集上的彻底评估显示，我们达到了与完全盒子监督结果相当的结果。我们还展示了伪注释如何在测试期间被利用来改善弱监督和强监督本地化器。

Abstract

The goal of this paper is to determine the spatio-temporal location of actions in video. Where training from hard to obtain box annotations is the norm, we propose an intuitive and effective algorithm that localizes actions from their class label only. We are inspired by recent work sh

action localization pseudo-annotations spatio-temporal location visual cues correlation metric

发现论文，激发创造

点级监督的行动定位

该论文提出一种基于点监督的行为识别方法，利用无监督的时空提案提取视频中的候选区域，并通过稀疏的点注释指导模型训练，在测试时通过伪点对提案进行筛选，实验结果表明该方法在行为识别上与传统的注释方法不相上下，且能够更好地应对数据的噪声与稀疏性。

May, 2018

基于点标注的提议的动作定位

该研究旨在通过在视频中对稀疏的一些帧上标注动作的点，利用重叠度量和多实例学习优化的目标，而非繁琐的矩形框注释来提高视频中行动的时空本地化性能，并展示了从 Hollywood2 训练和测试视频得到的 Spatio-temporal 行动注释，即《Hollywood2Tubes》。

Apr, 2016

演员监督的时空动作定位

本文介绍一种视频动作时空本地化的方法，着重于弱监督学习，只需要视频类标签即可。利用演员在动作中的变换特性，引入基于演员提议的算法及注意力机制，对三个行为数据集进行测试，实验结果表明，该方法在弱监督下可以实现与一些强监督学习相当的性能。

Apr, 2018

一种灵活的动作定位训练模型，具有不同程度的监督

提出了一种基于磁盘聚类的统一框架，它可以处理和结合不同类型的较低需求的弱监督，从视频中监测时空活动，并将其应用于训练设置中的不同类型的监督信号实验结果证明：该模型在 UC101-24 和 DALY 数据集上具有竞争性能，而且与之前的方法相比，使用的监督信号更少。

Jun, 2018

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020

通过弥合伪标签中的训练测试差距来提高弱监督的时间动作定位

该研究提出了一种有效的管道来学习更好的伪标签，其中含有高斯加权融合模块，伪标签作为一个在约束条件下的优化问题，以及 Delta 伪标签的概念，实现了超出现有方法的优越表现。

Apr, 2023

视频动作检测端到端半监督学习

提出一种利用半监督学习方法，结合已标注和未标注数据对视频行为检测进行改进的方法，其中使用分类一致性和时空一致性约束，提出了两个新的正则化约束条件，即时间相关性和梯度平滑性，以处理视频中存在的背景和固定区域，进而实现更好的检测效果。在 UCF101-24 数据集上，仅仅使用已标注数据的 20％，该方法就比最近的完全监督式方法提高了 8.9％和 11％，且在 Youtube-VOS 上的视频对象分割上也表现出了很好的泛化能力。

Mar, 2022

基于提议的时间动作定位与点级监督

提出了一种用于点级别监督时序动作定位的新方法，通过生成和评估具有灵活时长的动作提案来定位动作，利用聚类算法生成密集伪标签提供更强的监督，并利用精细的对比损失进一步提高伪标签的质量，实验证明该方法在多个基准数据集上达到了与最先进方法相媲美甚至更好的性能。

Oct, 2023

基于代表性片段知识传播的弱监督时态动作定位

该研究提出了一种代表性摘要和传播框架，通过在视频中挖掘代表性片段来传播信息以生成更好的伪标签，从而解决了分类和定位之间的差异问题，并在 THUMOS14 和 ActivityNet1.3 数据集上取得了比现有方法更好的性能。

Mar, 2022