置换不变注意力的小样本动作识别

ECCVJan, 2020

置换不变注意力的小样本动作识别

Few-shot Action Recognition with Permutation-invariant Attention

Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr...

TL;DR本文提出一种基于 C3D 编码器和置换不变池化的模型，针对视频的少样本动作识别任务，通过性质相似的原始视频块以及注意力机制，使其适用于不同长度和长期依赖模式的变化，同时在 HMDB51、UCF101 和 miniMIT 数据集上表现良好。

Abstract

Many few-shot learning models focus on recognising images. In contrast, we tackle a challenging task of few-shot action recognition from videos. We build on a C3D encoder for →

few-shot learning action recognition spatio-temporal video blocks permutation-invariant pooling similarity learning

发现论文，激发创造

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

基于隐式时间对齐和成对相似度优化的小样本动作识别

本研究提出了一种基于 LSTM 的 few-shot 动作识别框架，采用了特定的评估设置，隐式序列对齐算法以及新的优化方法，通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明，该方法在两个数据集上均取得了较好的效果。

Oct, 2020

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。

Sep, 2019

重新考虑用于小样本动作识别的时空建模

本篇论文提出了 SloshNet，一个新的框架，重新审视少样本动作识别中的空间时间建模，并自动搜索低级和高级空间特征的最佳组合，同时利用 transformer 技术对全局和局部的时间关系进行建模，实现了对四种数据集的优秀结果。

Jan, 2023

Few-shot 动作识别的时空关系建模

本文提出了一种新颖的 few-shot 动作识别框架 STRM，该框架通过聚合表示空间和时间上下文并学习高阶时间表示来增强类特定特征的可区分性，并在局部补丁级别和全局帧级别的特征补充子模块中捕获出现的特征，通过在不同阶段加强特征学习，并在四个基准数据集上进行实验，取得了领先的结果。

Dec, 2021

可解释的时空注意力视频动作识别

通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性，并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签，模型不仅提高了准确性，还能时空自动定位区分性区域。

Oct, 2018

几个视频中的共同动作定位

本文提出了一种利用少量样本实现在长视频中定位动作的方法，通过新的三维卷积神经网络，结合相互增强、逐步对齐和成对匹配等模块，成功地对单一或多个动作实例的长视频进行了精准定位。

Aug, 2020

注意力池化用于动作识别

介绍了一种简单却强大的注意力模型，能够在动作识别和人体对象交互任务中使用。该模型可带或不带额外的监控进行训练，并在不增加网络大小和计算成本的情况下显著提高准确性。它在三个标准动作识别基准测试和 MPII 数据集上取得了显著的改进，并建立了新的最先进技术。在此基础上，我们通过实证和分析对注意力模块进行了详尽的分析，提出了一种新的精细识别问题解决方案。

Nov, 2017

重新审视时空布局以进行组合行为识别

本文研究了基于物体的方法解决动作识别问题，提出了一种基于多头注意力的配置分析方法，证明将布局信息与外观信息相结合可以提高方法的识别准确率。

Nov, 2021

使用视觉注意力进行动作识别

本文提出一种基于 soft attention 的模型，用于对视频中的动作进行识别，该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元，学习有选择地专注于视频帧的某些部分，通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关，并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型，并分析了模型在不同场景和不同动作下注意力的聚焦。

Nov, 2015