零样本动作识别的详细排练
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
利用视频标题进行丰富的跨模态和跨行动建模,提出了 CoCo 框架,包括双重跨模态对齐模块和跨行动不变性挖掘模块,并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。
Jan, 2024
本篇论文探讨零样本学习在现代视频动作识别任务中的应用,采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂,并且难以学习的问题。通过自我训练和数据增强等策略,大大提高了这种映射的有效性,在 HMDB51 和 UCF101 等人体动作数据集上,本方法实现了最新的零样本动作识别性能。
Feb, 2015
提出了一种用于提高广义零样本基于骨骼的动作识别(GZSSAR)性能的多语义融合(MSF)模型,其中采集了两种类级文本描述(动作描述和运动描述)作为辅助语义信息,以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征,并利用基于变分自动编码器(VAE)的生成模块学习骨骼和语义特征之间的跨模态对齐,最后构建分类模块识别输入样本的动作类别,并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比,提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。
Sep, 2023
我们提出了一种简单而有效的语义感知少样本动作识别模型(SAFSAR),该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类,实现了更好的性能,无需复杂的距离函数和额外的时间建模组件。在这种方案中,SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合,并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明,所提出的 SAFSAR 模型显著提高了最先进的性能。
Nov, 2023
本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。
Mar, 2022
本文探索了将视频和类别标签嵌入共享语义空间的方法,作为零样本学习(zero-shot learning)动作识别的一种解决方案,并提出了一系列策略来改善标准 ZSL 流程中的泛化问题,大多数策略在性质上是转导的,这意味着在训练阶段可以访问测试数据。
Nov, 2015
该研究提出了 SESAR 方法,它将无监督学习和少量有监督学习相结合,通过两个组件对骨骼动作序列进行训练,从而实现骨骼动作识别,其性能超越其他方法,即使只使用 1% 已标记的数据。
Dec, 2020
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
Sep, 2023