基于分类语义注意力的动作检测
本论文提出了一种名为 HAM-Net 的新颖框架,该框架采用混合注意机制来解决现有方法中存在的问题,包括对背景活动的建模和完整性的捕捉,实验证明其在多个数据集上均取得了最新的最佳性能。
Jan, 2021
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
本文提出了一种使用条件变分自编码器模型来处理弱监督下的动作定位问题的方法,通过建立一个概率模型来模拟每一帧在给定关注度的情况下应当属于动作或非动作中的哪一类,从而有效地解决了动作与上下文之间相互混淆的问题。
Mar, 2020
该研究介绍了一种新颖的基于地理空间分析的通道相关的注意力机制,其能够在卷积神经网络中利用特征图之间的空间关系来产生有效的通道描述符,并验证了其在图像分类、目标检测和实例分割等多个任务和数据集上相对于其他先进的基于注意力的卷积神经网络的竞争性性能和优越性。
May, 2024
本文提出了一种基于注意力机制的分层结构潜在模型,用于学习特征语义的时间变化,通过两个组件进行实现:第一个是无监督的变点检测模块,通过在时间层次中学习视频特征的变化率来检测变点;第二个是基于注意力的分类模型,将前景的变点作为边界来选择。通过在两个基准数据集 THUMOS-14 和 ActivityNet-v1.3 上进行广泛实验,结果表明我们的方法优于当前最先进的方法,并且甚至与全监督方法具有可比较的性能。
Aug, 2023
本文提出了一种名为 FAC-Net 的框架,基于 I3D 骨干结构,在其上附加了三个分支,分别是类别感知前景分类分支,类不可知的注意力分支和多实例学习分支。该框架可用于处理高水平视频理解中的弱监督时间行为定位任务,并在 THUMOS14 和 ActivityNet1.3 上取得了最先进的性能。
Aug, 2021
本文针对行人检测问题,提出了一种基于语义分割和自注意力机制的多任务网络方法,在弱标注图像数据集上,并入注意力信息,提高了检测性能,在 Caltech 数据集上达到了 MR 为 6.27% 的最佳检测性能,同时在 CityPersons 数据集上保持高计算效率。
Feb, 2019
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
本研究提出一种基于主成分分析的互动感知自注意模型,通过利用多尺度信息构建空间金字塔,实现对特征图中所有空间位置的本地特征加权得到注意图,并将其嵌入卷积神经网络中以形成端到端的注意力网络,实现动作分类中的最先进结果。
Aug, 2018
本研究提出使用注意力模块中的演员条件化关注映射(ACAM)代替兴趣区域池化,以实现针对特定演员的动作定位,并利用预训练的物体检测器进行物体检测,从而在 AV2.1 和 JHMDB 数据集上获得明显改进。
Dec, 2018