本研究提出了一种基于 LSTM 的 few-shot 动作识别框架,采用了特定的评估设置,隐式序列对齐算法以及新的优化方法,通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明,该方法在两个数据集上均取得了较好的效果。
Oct, 2020
本文提出了一种原型中心的注意力学习模型(PAL),通过引入原型中心对比学习损失和混合的注意力学习机制,PAL 模型能够有效地提高在少样本情况下的行为识别准确度,具有优异的性能表现。
Jan, 2021
我们提出了一种新的框架 GgHM,通过图神经网络在类原型构建过程中优化类内和类间特征相关性,并设计了混合匹配策略,结合帧级和元组级匹配来分类具有多变量风格的视频。GgHM 在几个少样本数据集上均展现出对比其他基线模型的持续性改进,证明了我们方法的有效性。
Aug, 2023
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中,该设置在测试集上获得了 84.2% 的准确度,而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。
Sep, 2019
利用部分观察到的视频和原型表示,我们提出了一种早期行为识别模型,通过训练视频的短片段来预测行为并在多个实际数据集上取得了显著的改进。
Dec, 2023
最近,通过学习特征可辨性和设计合适的比较方法,少样本动作识别取得了显著进展。我们提出了一种 Consistency Prototype 和 Motion Compensation Network(CLIP-CP$M^2$C)来解决视觉、标签和运动特征的限制,并通过广泛实验验证了该方法的优越性能。
本文提出了一种利用少量样本实现在长视频中定位动作的方法,通过新的三维卷积神经网络,结合相互增强、逐步对齐和成对匹配等模块,成功地对单一或多个动作实例的长视频进行了精准定位。
Aug, 2020
本文提出一种基于 C3D 编码器和置换不变池化的模型,针对视频的少样本动作识别任务,通过性质相似的 原始视频块以及注意力机制,使其适用于不同长度和长期依赖模式的变化,同时在 HMDB51、UCF101 和 miniMIT 数据集上表现良好。
Jan, 2020
本文通过将 few-shot generalization 和 zero-shot generalization 相结合,并在传统的直接对齐基线上添加度量学习损失,探索了面向 open-set 分类的通用化方法,并在基于 EPIC-KITCHENS 数据集的新分裂的基础上进行了评估,结果表明这种方法可以提高零样本分类的准确性高达 10%,同时不损失 few-shot 性能。
May, 2020
本文旨在深入研究几种少量数据学习框架用于视频分类的方法,通过提出基于分类器的基线模型等贡献,发现现有的度量学习法存在的局限性,并发现新行动类别和 ImageNet 物体类别之间高度相关,最终提出了一个新的基准数据集以促进未来的少样本数据的视频分类研究,该代码将在指定网址上公开。
Oct, 2021