零样本动作识别的详细排练

ICCVAug, 2021

Elaborative Rehearsal for Zero-shot Action Recognition

Shizhe Chen, Dong Huang

TL;DR本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型，该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义，从而实现了零样本行为识别任务的最新成果，并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。

Abstract

The growing number of action classes has posed a new challenge for video understanding, making zero-shot action recognition (ZSAR) a thriving direction. The ZSAR task aims to recognize target (unseen) actions without training examples by leveraging →

zero-shot action recognition elaborative rehearsal semantic representations video understanding state-of-the-art

发现论文，激发创造

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

ActionHub：大规模动作视频描述数据集用于零样本动作识别

利用视频标题进行丰富的跨模态和跨行动建模，提出了 CoCo 框架，包括双重跨模态对齐模块和跨行动不变性挖掘模块，并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。

Jan, 2024

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

通用零样本基于骨骼的动作识别的多义融合模型

提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Sep, 2023

面向少样本动作识别的语义感知视频表示

我们提出了一种简单而有效的语义感知少样本动作识别模型（SAFSAR），该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类，实现了更好的性能，无需复杂的距离函数和额外的时间建模组件。在这种方案中，SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合，并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明，所提出的 SAFSAR 模型显著提高了最先进的性能。

Nov, 2023

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019

针对零样本动作识别的端到端语义视频变换器

本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Mar, 2022

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

主动学习稀疏半监督动作识别

该研究提出了 SESAR 方法，它将无监督学习和少量有监督学习相结合，通过两个组件对骨骼动作序列进行训练，从而实现骨骼动作识别，其性能超越其他方法，即使只使用 1% 已标记的数据。

Dec, 2020

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023