基于视频内部和交叉信息最大化的小样本动作识别

May, 2023

基于视频内部和交叉信息最大化的小样本动作识别

Few-shot Action Recognition via Intra- and Inter-Video Information Maximization

Huabin Liu, Weiyao Lin, Tieyuan Chen, Yuxi Li, Shuyuan Li...

TL;DR提出了一个新的框架 Video Information Maximization（VIM），用于 few-shot video action recognition，其中包括自适应的空间 - 时间视频采样器和时空动作对齐模型，以最大化视频信息的内在和互视频信息，并通过基于互信息度量的其他损失项来达到这些目标。

Abstract

Current few-shot action recognition involves two primary sources of information for classification:(1) intra-video information, determined by frame content within a single video clip, and (2) inter-video information, measured by relationships (e.g., feature similarity) among videos. Ho

few-shot action recognition adaptive spatial-temporal video sampler spatiotemporal action alignment model intra- and inter-video information mutual information measurement

发现论文，激发创造

通过互信息估计与最大化进行零样本基于骨架的动作识别

通过相互信息估计和最大化，我们提出了一种基于零样本骨骼动作识别的新方法，通过最大化视觉和语义空间之间的相互信息来进行分布对齐，并利用时间信息来估计相互信息，以增加观察到的帧数。

Aug, 2023

基于隐式时间对齐和成对相似度优化的小样本动作识别

本研究提出了一种基于 LSTM 的 few-shot 动作识别框架，采用了特定的评估设置，隐式序列对齐算法以及新的优化方法，通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明，该方法在两个数据集上均取得了较好的效果。

Oct, 2020

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。

Sep, 2019

多路动作建模和互信息最大化的动作识别

本文通过提出一种加速度表示，引入新颖的流式图卷积神经网络以及特征级监督，提高了行动识别的精度并在三个基准数据集上实现了新的最佳性能。

Jun, 2023

零样本基于骨架的动作识别的信息补偿框架

从信息论的角度设计信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别准确性，并提出多层次对齐方法对动作类别的信息进行补偿，利用新的损失函数采样方法获得紧密且鲁棒的表示，进而通过合成多粒度语义嵌入形成适当的分类决策面，验证多粒度语义特征有助于区分具有相似视觉特征的动作簇。

Jun, 2024

置换不变注意力的小样本动作识别

本文提出一种基于 C3D 编码器和置换不变池化的模型，针对视频的少样本动作识别任务，通过性质相似的原始视频块以及注意力机制，使其适用于不同长度和长期依赖模式的变化，同时在 HMDB51、UCF101 和 miniMIT 数据集上表现良好。

Jan, 2020

针对少样本动作识别的任务自适应时空视频采样器

本文提出了一种针对 Few-Shot 行为识别的视频帧采样器，采用了时间选择器和空间放大器来实现任务特定的时空帧采样，并采用任务自适应学习来动态调整采样策略。实验结果表明，该采样器在各个基准测试上都具有显著的性能提升。

Jul, 2022

视频深度信息最大化表示学习

本文介绍一种名为 Video Deep InfoMax (VDIM) 的自监督学习方法，将原 DeepInfoMax 扩展至视频领域，其利用内部结构构建视图，并利用这些视图进行预测任务，从而实现对 UCF-101 数据集的行为识别任务的 SoTA 预测结果。

Jul, 2020

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

面向少样本动作识别的语义感知视频表示

我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Nov, 2023