学习暗示性时间对齐用于小样本视频分类
本文提出了一种新的少样本学习框架 ——“Temporal Alignment Module (TAM)”,通过显式利用视频数据中的时序信息,计算查询视频与新类别代理之间的距离值以实现视频分类,并引入连续松弛以在端到端的学习中直接优化少样本学习目标,最后,在两个真实世界数据集上的评估表明,模型相比各种基线算法在少样本视频分类领域具有明显的提高。
Jun, 2019
提出了一种新的少样本视频分类方法,该方法通过外貌和时间对齐来进行,采用了原型训练和测试,以及归纳和推导原型细化。此方法在 Kinetics 和 Something-Something V2 数据集上进行了广泛实验,并取得了类似或更好的结果。
Jul, 2022
本研究提出了一种基于 LSTM 的 few-shot 动作识别框架,采用了特定的评估设置,隐式序列对齐算法以及新的优化方法,通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明,该方法在两个数据集上均取得了较好的效果。
Oct, 2020
本研究提出通过使用 3D CNN 学习视频空时特征并在基类上 fine-tuning 分类器来解决 few-shot video classification 问题,其表现超过现有基准测试的先前方法 20 点以上,同时提出了利用标签检索和生成式对抗网络生成视频特征的方法,以更好地应对无标签示例的需求,并使用更具挑战性的基准数据集对模型进行了评估。
Jul, 2020
本文旨在深入研究几种少量数据学习框架用于视频分类的方法,通过提出基于分类器的基线模型等贡献,发现现有的度量学习法存在的局限性,并发现新行动类别和 ImageNet 物体类别之间高度相关,最终提出了一个新的基准数据集以促进未来的少样本数据的视频分类研究,该代码将在指定网址上公开。
Oct, 2021
本论文提出了关联对齐的思想,将新颖的训练实例与基础训练集中密切相关的样本进行对齐,从而扩大了有效新颖训练集的规模。研究表明采用我们提出的关联对齐策略和以质心为基础的关联损失,相较于现有技术,可以分别在目标识别、细粒度分类和跨领域适应中提高 5-shot 学习的绝对准确率 4.4%、1.2%和 6.2%。
Dec, 2019
本研究介绍了针对少样本学习的视频动作识别任务,采用双流模型和三种常见的基于度量的算法,通过一组卷积和递归神经网络视频编码器进行训练和评估,证实了双流设置的重要性,并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中,该设置在测试集上获得了 84.2% 的准确度,而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。
Sep, 2019
本文提出了一种新颖的隐式学习对齐(ILA)方法,可在视频中实现高效的空间自注意力,避免了昂贵或不充足的时间自注意力。 在 Kinetics-400 上,提出的 ILA 与 Swin-L 和 ViViT-H 相比,仅使用更少的 FLOPs 即可实现 88.7%的 top-1 准确率。
Apr, 2023
本文探讨使用反差学习作为辅助训练目标来促进更通用和可转移的特征,在此基础上提出了一种基于注意力的空间反差目标来学习本地区分和类别不可知特征。通过大量实验证明了该方法优于最先进的方法,证实了学习良好、可转移的嵌入在 few-shot 学习中的重要性。
Dec, 2020