面向少样本动作识别的语义感知视频表示

Nov, 2023

面向少样本动作识别的语义感知视频表示

Semantic-aware Video Representation for Few-shot Action Recognition

Yutao Tang, Benjamin Bejar, Rene Vidal

TL;DR我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Abstract

Recent work on action recognition leverages 3d features and textual information to achieve state-of-the-art performance. However, most of the current →

action recognition few-shot 3d features textual semantics feature fusion

发现论文，激发创造

基于字幕基础模型的少样本动作识别

通过 CapFSAR 框架，我们利用预训练的多模态基础模型的知识，从合成描述中提取视觉特征和相关文本嵌入，并设计了基于 Transformer 的视觉文本聚合模块，以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中，我们的 CapFSAR 方法表现优于现有方法，并达到了最先进的性能。

Oct, 2023

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

通用零样本基于骨骼的动作识别的多义融合模型

提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Sep, 2023

视频基于少样本行为识别模型的跨领域能力理解

本研究在跨领域少样本动作识别问题中，通过系统性评估已有的单领域、基于迁移的和跨领域方法，发现领域差异与性能之间存在相关性，揭示了一些对 CD-FSAR 方法有效的模型方面，以及需要进一步发展的方面，希望这些洞见能够激发和指导未来在这些方向上的研究工作。

Jun, 2024

零样本动作识别的详细排练

本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型，该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义，从而实现了零样本行为识别任务的最新成果，并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。

Aug, 2021

MVP-Shot：多速度渐进对齐框架在少样本动作识别中的应用

通过提出一种多速度渐进对齐的方法，在多个常见的少样本动作识别基准测试上，我们的方法在精度上超越了现有的最先进方法。

May, 2024

关于少样本动作识别中空间关系的重要性

通过整合空间关系和时间信息，本文提出了一种新型的少样本动作识别方法 Spatial Alignment Cross Transformer (SA-CT)，并利用预训练模型进一步提升性能。

Aug, 2023

重新考虑用于小样本动作识别的时空建模

本篇论文提出了 SloshNet，一个新的框架，重新审视少样本动作识别中的空间时间建模，并自动搜索低级和高级空间特征的最佳组合，同时利用 transformer 技术对全局和局部的时间关系进行建模，实现了对四种数据集的优秀结果。

Jan, 2023

流媒体视频中的自监督式多角色社交活动理解

在这项研究中，我们提出了一种基于多演员预测学习的自监督方法，用于流媒体视频中的社交活动识别。通过使用视觉语义图结构，我们对社交互动进行建模，从而实现了关系推理，使其在具有最少标记数据的情况下具有鲁棒性表现。该方法在标准群体活动识别基准上取得了竞争性的性能，并通过三个公开可用的动作定位基准的评估证明了其可泛化到任意动作定位的能力。

Jun, 2024

基于隐式时间对齐和成对相似度优化的小样本动作识别

本研究提出了一种基于 LSTM 的 few-shot 动作识别框架，采用了特定的评估设置，隐式序列对齐算法以及新的优化方法，通过在少量数据上最大化同类样本的相似性并最小化不同类之间的相似性来实现 few-shot 动作识别。实验表明，该方法在两个数据集上均取得了较好的效果。

Oct, 2020