3C-Net: 弱监督下的动作定位分类计数与中心损失

ICCVAug, 2019

3C-Net: 弱监督下的动作定位分类计数与中心损失

3C-Net: Category Count and Center Loss for Weakly-Supervised Action Localization

Sanath Narayan, Hisham Cholakkal, Fahad Shahbaz Khan, Ling Shao

TL;DR提出一种名为 3C-Net 的框架，通过仅使用动作类别标签及其对应数量的视频级监督来学习具有增强本地化能力的判别性动作特征。通过多项联合项来提高动作特征的区分度，以及通过计数损失项来描绘相邻动作序列，从而达到改进本地化的目的，在两个具有挑战性的基准测试中都取得了新的最优效果，代码可在给定链接中找到。

Abstract

temporal action localization is a challenging computer vision problem with numerous real-world applications. Most existing methods require laborious frame-level supervision to train action localization models. In this work, we propose a framework, called →

temporal action localization 3c-net weak supervision discriminative action features counting loss term

发现论文，激发创造

使用深度度量学习进行弱监督时序动作定位

本文介绍了一种弱监督的时间动作定位方法，该方法只需要视频级别的动作实例作为训练数据，在视频的每个片段中生成行为标签，并学习不同动作实例之间的相似性，实验表明该方法在两个视频数据集上取得了有竞争力的结果。

Jan, 2020

ACM-Net: 弱监督时间动作定位的动作上下文建模网络

本文提出了一种称为 ACM-Net 的动作上下文建模网络，它在体现动作实例、上下文和非动作背景部分的同时，采用了三分支注意模块来给每个时间点分手概率，并构建了三分支类激活序列来分别表示这三部分，通过在 THUMOS-14 和 ActivityNet-1.3 上的实验证明了这种方法能够胜过当前最先进的方法，甚至能够与完全监督方法达到可比较的性能水平。

Apr, 2021

稀疏时域池化网络弱监督动作定位

该篇论文提出了一种利用卷积神经网络进行弱监督时间动作定位的算法，其通过学习视频级别的类标签来预测人类动作的时间区间，利用注意力模块鉴别与目标动作有关的重要片段，并通过自适应时间池化融合这些关键片段，同时在损失函数中考虑视频级别的动作分类误差和这些关键片段的稀疏性，利用类别激活和类别无关的注意力在推断时提取和评分时间建议，以估计与目标动作对应的时间区间，在 THUMOS14 数据集上取得了最先进的结果，并具有卓越的 ActivityNet1.3 性能。

Dec, 2017

弱监督时序动作定位的前景 - 动作一致性网络

本文提出了一种名为 FAC-Net 的框架，基于 I3D 骨干结构，在其上附加了三个分支，分别是类别感知前景分类分支，类不可知的注意力分支和多实例学习分支。该框架可用于处理高水平视频理解中的弱监督时间行为定位任务，并在 THUMOS14 和 ActivityNet1.3 上取得了最先进的性能。

Aug, 2021

跨模态共识网络用于弱监督时间动作定位

本文提出了一种跨模态共识网络以解决弱监督时间动作定位任务中现有特征提取器提取的不是任务特定特征的问题，并使用了跨模态注意机制和相互学习来产生更有代表性的特征。在 THUMOS14 和 ActivityNet1.2 数据集上的实验结果表明，此方法产生的特征实现了时间动作定位的最新成果。

Jul, 2021

基于背景建模的弱监督动作定位

该研究提出了一种潜在方法，利用注意力模型进行弱监督学习，其可以检测出影片中的动作，而无需特定类别的标签，并利用弱监督学习进行比较准确的学习和定位，成功地应用于 Instagram 中的不加筛选的视频之间。

Aug, 2019

一种用于弱监督时序动作定位的混合注意机制

本论文提出了一种名为 HAM-Net 的新颖框架，该框架采用混合注意机制来解决现有方法中存在的问题，包括对背景活动的建模和完整性的捕捉，实验证明其在多个数据集上均取得了最新的最佳性能。

Jan, 2021

基于不确定性建模进行弱监督时序动作定位

该论文提出了一种新的关于背景帧的观点，在这个观点中，背景帧是关于其不一致性的离群样本，通过学习不确定性，背景帧可以被检测出来，而这种不确定性的学习是通过多实例学习实现的，进一步引入了一个背景熵损失以更好地鉴别背景帧。研究表明，我们的不确定性建模可以有效地减轻背景帧的干扰，并且在 THUMOS'14 和 ActivityNet（1.2 和 1.3）基准测试上取得了明显优于最先进方法的性能表现。

Jun, 2020

基于生成式注意模型的弱监督动作定位

本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法，通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类，从而有效地解决了动作与上下文之间相互混淆的问题。

Mar, 2020

使用多阶段 CNN 在未修剪的视频中进行时间动作定位

本研究提出了一种基于三种分段 3D 卷积神经网络的方法，用于解决未经修剪的长视频中的时间动作定位问题，其中提出网络用于识别可能包含动作的候选段，分类网络以一对多动作分类模型进行学习以作为定位网络的初始化，用于定位每个动作实例。

Jan, 2016