可解释的时空注意力视频动作识别
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015
本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型,用于从骨架数据中识别人类动作,实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。
Nov, 2016
本文介绍了一种新颖的时空变换网络,其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联,使用运动感知网络编码视频帧中的动作位置,并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系,该方法在四个时空动作数据集上优于最先进的解决方案:AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。
May, 2024
本研究提出了一种基于高斯混合模型的时空注意力模型,并使用人类注视数据进行训练,相比先前的方法,该模型在影片显著性预测方面具有最先进的表现,并在动作分类准确性方面取得了改进。
Mar, 2016
提出了一种新的时空注意力模型,可以自动发现多样化的特征,并使用空间和时间的注意力组合提取有用的信息,从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示,通过三个数据集的评估发现算法优于现有方法。
Mar, 2018
本文提出了一种称为多模态注意力的方法,可以针对图像特征、运动特征和音频特征进行选择性关注,以促进视频描述的多模态信息融合,并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。
Jan, 2017
提出一种新的用于搜索空间时间关注单元的方法,可以用于改善现有的骨干网络(如 I3D 或 S3D)中的视频分类精度,并在 Kinetics-600 和 MiT 数据集上超过 2%。
Jul, 2020
该论文提出了一种基于自注意力机制的视频分类方法,名为 TimeSformer,适用于序列级别的视频帧,采用分离式自注意力机制,不仅训练速度比 3D 卷积神经网络更快,而且在多个动作识别数据集上实现了最佳效果,且支持处理长达一分钟的视频.
Feb, 2021
我们提出了一种新的双流架构,称为 Cross-Attention in Space and Time (CAST),它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测,从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400 等公共基准数据集进行了大量实验证明了所提方法的优越性能。与现有方法相比,在不同数据集特征下,我们的方法始终表现出较好的性能。
Nov, 2023