可解释的时空注意力视频动作识别

Oct, 2018

可解释的时空注意力视频动作识别

Interpretable Spatio-temporal Attention for Video Action Recognition

Lili Meng, Bo Zhao, Bo Chang, Gao Huang, Wei Sun...

TL;DR通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Abstract

Inspired by the observation that humans are able to process videos efficiently by only paying attention where and when it is needed, we propose an interpretable and easy plug-in spatial-temporal attention mechanism for video action recognition. For spatial attention, we learn a

video action recognition attention mechanism saliency mask convolutional lstm model interpretability

发现论文，激发创造

使用视觉注意力进行动作识别

本文提出一种基于 soft attention 的模型，用于对视频中的动作进行识别，该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元，学习有选择地专注于视频帧的某些部分，通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关，并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型，并分析了模型在不同场景和不同动作下注意力的聚焦。

Nov, 2015

一种基于时空注意力机制的人体动作识别端到端模型（来自骨架数据）

本研究提出了一种基于 RNNs 和 LSTM 的空间和时间关注模型，用于从骨架数据中识别人类动作，实验结果表明该模型在 SBU 和 NTU 数据集上均取得了很好的效果。

Nov, 2016

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

用于时空视觉注意的循环混合密度网络

本研究提出了一种基于高斯混合模型的时空注意力模型，并使用人类注视数据进行训练，相比先前的方法，该模型在影片显著性预测方面具有最先进的表现，并在动作分类准确性方面取得了改进。

Mar, 2016

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

基于多样性正则化的时空关注力视频人物再识别

提出了一种新的时空注意力模型，可以自动发现多样化的特征，并使用空间和时间的注意力组合提取有用的信息，从整个视频序列中学习潜在的面部、躯干和其他身体部位的隐藏表示，通过三个数据集的评估发现算法优于现有方法。

Mar, 2018

基于注意力的多模态融合视频描述

本文提出了一种称为多模态注意力的方法，可以针对图像特征、运动特征和音频特征进行选择性关注，以促进视频描述的多模态信息融合，并在 Youtube2Text 数据集上取得了竞争状态 - of-the-art 的结果。

Jan, 2017

AttentionNAS: 基于时空注意力单元搜索的视频分类

提出一种新的用于搜索空间时间关注单元的方法，可以用于改善现有的骨干网络（如 I3D 或 S3D）中的视频分类精度，并在 Kinetics-600 和 MiT 数据集上超过 2％。

Jul, 2020

空时注意力是否足以理解视频？

该论文提出了一种基于自注意力机制的视频分类方法，名为 TimeSformer，适用于序列级别的视频帧，采用分离式自注意力机制，不仅训练速度比 3D 卷积神经网络更快，而且在多个动作识别数据集上实现了最佳效果，且支持处理长达一分钟的视频.

Feb, 2021

CAST: 视频动作识别中的时空交叉注意力

我们提出了一种新的双流架构，称为 Cross-Attention in Space and Time (CAST)，它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测，从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400 等公共基准数据集进行了大量实验证明了所提方法的优越性能。与现有方法相比，在不同数据集特征下，我们的方法始终表现出较好的性能。

Nov, 2023