置换不变注意力的小样本动作识别
通过整合空间关系和时间信息,本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT),并利用预训练模型进一步提升性能。
Aug, 2023
本研究提出了一种基于 LSTM 的 few-shot 动作识别框架,采用了特定的评估设置,隐式序列对齐算法以及新的优化方法,通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明,该方法在两个数据集上均取得了较好的效果。
Oct, 2020
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中,该设置在测试集上获得了 84.2% 的准确度,而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。
Sep, 2019
本篇论文提出了 SloshNet,一个新的框架,重新审视少样本动作识别中的空间时间建模,并自动搜索低级和高级空间特征的最佳组合,同时利用 transformer 技术对全局和局部的时间关系进行建模,实现了对四种数据集的优秀结果。
Jan, 2023
本文提出了一种新颖的 few-shot 动作识别框架 STRM,该框架通过聚合表示空间和时间上下文并学习高阶时间表示来增强类特定特征的可区分性,并在局部补丁级别和全局帧级别的特征补充子模块中捕获出现的特征,通过在不同阶段加强特征学习,并在四个基准数据集上进行实验,取得了领先的结果。
Dec, 2021
通过引入可解释的时空注意力机制来提高视频动作识别的准确性和模型解释性,并使用一组正则化器对其进行约束。利用弱监督的方式仅使用分类标签,模型不仅提高了准确性,还能时空自动定位区分性区域。
Oct, 2018
本文提出了一种利用少量样本实现在长视频中定位动作的方法,通过新的三维卷积神经网络,结合相互增强、逐步对齐和成对匹配等模块,成功地对单一或多个动作实例的长视频进行了精准定位。
Aug, 2020
介绍了一种简单却强大的注意力模型,能够在动作识别和人体对象交互任务中使用。该模型可带或不带额外的监控进行训练,并在不增加网络大小和计算成本的情况下显著提高准确性。它在三个标准动作识别基准测试和 MPII 数据集上取得了显著的改进,并建立了新的最先进技术。在此基础上,我们通过实证和分析对注意力模块进行了详尽的分析,提出了一种新的精细识别问题解决方案。
Nov, 2017
本文提出一种基于 soft attention 的模型,用于对视频中的动作进行识别,该模型使用多层循环神经网络 (RNNs) 和长短期记忆 (LSTM) 单元,学习有选择地专注于视频帧的某些部分,通过几个瞥见来对视频进行分类。该模型主要学习帧中哪些部分与目标任务相关,并赋予它们更高的重要性。我们在 UCF-11 (YouTube Action)、HMDB-51 和 Hollywood2 数据集上评估了该模型,并分析了模型在不同场景和不同动作下注意力的聚焦。
Nov, 2015