学习暗示性时间对齐用于小样本视频分类

IJCAIMay, 2021

学习暗示性时间对齐用于小样本视频分类

Learning Implicit Temporal Alignment for Few-shot Video Classification

Songyang Zhang, Jiale Zhou, Xuming He

TL;DR本文提出了一种新的基于匹配的少样本学习策略，结合隐式时间对齐和上下文编码模块以及多任务损失，用于解决视频分类中在有限标注情况下空间 - 时间表征的学习问题，并在两个具有挑战性的基准测试中证明了其优越性。

Abstract

Few-shot video classification aims to learn new video categories with only a few labeled examples, alleviating the burden of costly annotation in real-world applications. However, it is particularly challenging to learn a class-invariant spatial-temporal representation in such a settin

few-shot learning video classification temporal alignment context encoding multi-task loss

发现论文，激发创造

通过时间对齐的少样本视频分类

本文提出了一种新的少样本学习框架 ——“Temporal Alignment Module (TAM)”，通过显式利用视频数据中的时序信息，计算查询视频与新类别代理之间的距离值以实现视频分类，并引入连续松弛以在端到端的学习中直接优化少样本学习目标，最后，在两个真实世界数据集上的评估表明，模型相比各种基线算法在少样本视频分类领域具有明显的提高。

Jun, 2019

基于外观和时间对齐的归纳和转导式小样本视频分类

提出了一种新的少样本视频分类方法，该方法通过外貌和时间对齐来进行，采用了原型训练和测试，以及归纳和推导原型细化。此方法在 Kinetics 和 Something-Something V2 数据集上进行了广泛实验，并取得了类似或更好的结果。

Jul, 2022

基于隐式时间对齐和成对相似度优化的小样本动作识别

本研究提出了一种基于 LSTM 的 few-shot 动作识别框架，采用了特定的评估设置，隐式序列对齐算法以及新的优化方法，通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明，该方法在两个数据集上均取得了较好的效果。

Oct, 2020

视觉 - 语义对比对齐在小样本图像分类中的应用

本文介绍了一种对称的对齐机制，用于学习从极少的例子中获取更广义的视觉概念的方法。实验结果表明，该方法是通用的，并提供了一个强大的基准。

Oct, 2022

基于视频检索和特征生成的通用 Few-Shot 视频分类

本研究提出通过使用 3D CNN 学习视频空时特征并在基类上 fine-tuning 分类器来解决 few-shot video classification 问题，其表现超过现有基准测试的先前方法 20 点以上，同时提出了利用标签检索和生成式对抗网络生成视频特征的方法，以更好地应对无标签示例的需求，并使用更具挑战性的基准数据集对模型进行了评估。

Jul, 2020

Few-Shot 视频分类的深入研究：新基准和基础线

本文旨在深入研究几种少量数据学习框架用于视频分类的方法，通过提出基于分类器的基线模型等贡献，发现现有的度量学习法存在的局限性，并发现新行动类别和 ImageNet 物体类别之间高度相关，最终提出了一个新的基准数据集以促进未来的少样本数据的视频分类研究，该代码将在指定网址上公开。

Oct, 2021

少样本图像分类的联合对齐

本论文提出了关联对齐的思想，将新颖的训练实例与基础训练集中密切相关的样本进行对齐，从而扩大了有效新颖训练集的规模。研究表明采用我们提出的关联对齐策略和以质心为基础的关联损失，相较于现有技术，可以分别在目标识别、细粒度分类和跨领域适应中提高 5-shot 学习的绝对准确率 4.4％、1.2％和 6.2％。

Dec, 2019

基于度量的视频动作识别小样本学习

本研究介绍了针对少样本学习的视频动作识别任务，采用双流模型和三种常见的基于度量的算法，通过一组卷积和递归神经网络视频编码器进行训练和评估，证实了双流设置的重要性，并发现原型网络和池化长短期记忆网络嵌入为少样本方法和视频编码器提供了最佳性能。在 Kinetics 600 数据集上进行的 5-shot、5-way 任务中，该设置在测试集上获得了 84.2% 的准确度，而在混淆度较高的 “挑战” 测试集上获得了 59.4% 的准确度。

Sep, 2019

基于可学习对齐的隐式时间建模视频识别

本文提出了一种新颖的隐式学习对齐（ILA）方法，可在视频中实现高效的空间自注意力，避免了昂贵或不充足的时间自注意力。在 Kinetics-400 上，提出的 ILA 与 Swin-L 和 ViViT-H 相比，仅使用更少的 FLOPs 即可实现 88.7％的 top-1 准确率。

Apr, 2023

Few-Shot 分类的空间对比学习

本文探讨使用反差学习作为辅助训练目标来促进更通用和可转移的特征，在此基础上提出了一种基于注意力的空间反差目标来学习本地区分和类别不可知特征。通过大量实验证明了该方法优于最先进的方法，证实了学习良好、可转移的嵌入在 few-shot 学习中的重要性。

Dec, 2020