ActionHub：大规模动作视频描述数据集用于零样本动作识别

Jan, 2024

ActionHub：大规模动作视频描述数据集用于零样本动作识别

ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition

Jiaming Zhou, Junwei Liang, Kun-Yu Lin, Jinrui Yang, Wei-Shi Zheng

TL;DR利用视频标题进行丰富的跨模态和跨行动建模，提出了 CoCo 框架，包括双重跨模态对齐模块和跨行动不变性挖掘模块，并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。

Abstract

zero-shot action recognition (ZSAR) aims to learn an alignment model between videos and class descriptions of seen actions that is transferable to unseen actions. The text queries (class descriptions) used in existing ZSAR works, however, are often short action names that fail to captu

zero-shot action recognition video captions actionhub dataset cross-modality and cross-action modeling zsar benchmarks

发现论文，激发创造

零样本动作识别的详细排练

本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型，该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义，从而实现了零样本行为识别任务的最新成果，并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。

Aug, 2021

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

通用零样本基于骨骼的动作识别的多义融合模型

提出了一种用于提高广义零样本基于骨骼的动作识别（GZSSAR）性能的多语义融合（MSF）模型，其中采集了两种类级文本描述（动作描述和运动描述）作为辅助语义信息，以增强通用骨骼特征的学习能力。通过预训练的语言编码器和骨骼编码器提取富有语义特征的动作类别和骨骼特征，并利用基于变分自动编码器（VAE）的生成模块学习骨骼和语义特征之间的跨模态对齐，最后构建分类模块识别输入样本的动作类别，并在 GZSSAR 中采用看见未见分类门来预测样本是否来自已知动作类别。与先前模型相比，提出的 MSF 模型在 GZSSAR 上表现出卓越的性能。

Sep, 2023

零样本人体动作识别的替代语义表示

探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征，结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型，特别是图像语义表示，即使每个类别只是从少量图像中提取的。

Jun, 2017

零样本基于骨架的动作识别的信息补偿框架

从信息论的角度设计信息补偿学习框架，通过多粒度语义交互机制来提高零样本动作识别准确性，并提出多层次对齐方法对动作类别的信息进行补偿，利用新的损失函数采样方法获得紧密且鲁棒的表示，进而通过合成多粒度语义嵌入形成适当的分类决策面，验证多粒度语义特征有助于区分具有相似视觉特征的动作簇。

Jun, 2024

ActionCLIP：视频动作识别的新范式

本研究提出了一种基于视觉 - 文本匹配的多模态学习框架，通过对标签文本的语义信息进行建模，并提出了一种新的 “预训练、提示和微调” 范例，以实现零样本行动识别。实验结果表明，ActionCLIP 模型不仅具有卓越的零样本 / 少样本的迁移能力，而且在 Kinetics-400 数据集上也取得了 83.8% 的高准确度表现。

Sep, 2021

针对零样本动作识别的端到端语义视频变换器

本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Mar, 2022

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019