基于分类语义注意力的动作检测

ICCVSep, 2021

Class Semantics-based Attention for Action Detection

Deepak Sridhar, Niamul Quader, Srikanth Muralidharan, Yaoxin Li, Peng Dai...

TL;DR该研究提出了一种基于类语义的关注机制，用于提高行为检测模型的性能，并在两个流行的行为检测任务数据集上展示了明显的性能提升，同时对于一些自注意力模块（如收缩激活）的性能提升具有补充作用。

Abstract

action localization networks are often structured as a feature encoder sub-network and a localization sub-network, where the →

action localization networks feature encoder localization sub-network class semantics-based attention performance gains

发现论文，激发创造

一种用于弱监督时序动作定位的混合注意机制

本论文提出了一种名为 HAM-Net 的新颖框架，该框架采用混合注意机制来解决现有方法中存在的问题，包括对背景活动的建模和完整性的捕捉，实验证明其在多个数据集上均取得了最新的最佳性能。

Jan, 2021

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

基于生成式注意模型的弱监督动作定位

本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法，通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类，从而有效地解决了动作与上下文之间相互混淆的问题。

Mar, 2020

CSA-Net：通道级空间自相关注意力网络

该研究介绍了一种新颖的基于地理空间分析的通道相关的注意力机制，其能够在卷积神经网络中利用特征图之间的空间关系来产生有效的通道描述符，并验证了其在图像分类、目标检测和实例分割等多个任务和数据集上相对于其他先进的基于注意力的卷积神经网络的竞争性性能和优越性。

May, 2024

层次结构潜在注意力建模的弱监督动作定位

本文提出了一种基于注意力机制的分层结构潜在模型，用于学习特征语义的时间变化，通过两个组件进行实现：第一个是无监督的变点检测模块，通过在时间层次中学习视频特征的变化率来检测变点；第二个是基于注意力的分类模型，将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验，结果表明我们的方法优于当前最先进的方法，并且甚至与全监督方法具有可比较的性能。

Aug, 2023

弱监督时序动作定位的前景 - 动作一致性网络

本文提出了一种名为 FAC-Net 的框架，基于 I3D 骨干结构，在其上附加了三个分支，分别是类别感知前景分类分支，类不可知的注意力分支和多实例学习分支。该框架可用于处理高水平视频理解中的弱监督时间行为定位任务，并在 THUMOS14 和 ActivityNet1.3 上取得了最先进的性能。

Aug, 2021

SSA-CNN: 用于行人检测的语义自注意力卷积神经网络

本文针对行人检测问题，提出了一种基于语义分割和自注意力机制的多任务网络方法，在弱标注图像数据集上，并入注意力信息，提高了检测性能，在 Caltech 数据集上达到了 MR 为 6.27% 的最佳检测性能，同时在 CityPersons 数据集上保持高计算效率。

Feb, 2019

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

交互感知的时空金字塔注意力网络用于动作分类

本研究提出一种基于主成分分析的互动感知自注意模型，通过利用多尺度信息构建空间金字塔，实现对特征图中所有空间位置的本地特征加权得到注意图，并将其嵌入卷积神经网络中以形成端到端的注意力网络，实现动作分类中的最先进结果。

Aug, 2018

基于演员条件的视频行动检测的注意力地图

本研究提出使用注意力模块中的演员条件化关注映射（ACAM）代替兴趣区域池化，以实现针对特定演员的动作定位，并利用预训练的物体检测器进行物体检测，从而在 AV2.1 和 JHMDB 数据集上获得明显改进。

Dec, 2018