常识零样本动作识别故事讲述

Sep, 2023

Telling Stories for Common Sense Zero-Shot Action Recognition

Shreyank N Gowda, Laura Sevilla-Lara

TL;DR通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Abstract

video understanding has long suffered from reliance on large labeled datasets, motivating research into zero-shot learning. Recent progress in language modeling presents opportunities to advance zero-shot video a

video understanding zero-shot learning semantic space action classes stories dataset

发现论文，激发创造

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

一段视频价值 4096 个令牌：通过零 - shot 方法口头描述视频以理解其含义

通过将视频转化为自然语言描述，本文提出一种方法来解决缺少训练集的多媒体理解问题，并且在视频理解任务中发挥了显著的优势，同时还公开了第一个数据集，用于计算社会科学中的说服策略识别。

May, 2023

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

零样本人体动作识别的替代语义表示

探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征，结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型，特别是图像语义表示，即使每个类别只是从少量图像中提取的。

Jun, 2017

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019

针对零样本动作识别的端到端语义视频变换器

本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Mar, 2022

从多样化的物体场景组合中的零样本行为识别

本研究提出了基于物体和场景组成误差与多样性要求的无监督零样本动作识别方法，该方法不需要已训练的视频集，能够有效地提高动作识别效果。

Oct, 2021

ActionHub：大规模动作视频描述数据集用于零样本动作识别

利用视频标题进行丰富的跨模态和跨行动建模，提出了 CoCo 框架，包括双重跨模态对齐模块和跨行动不变性挖掘模块，并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。

Jan, 2024

强监督下的多线索零样本学习

利用多个文本来源和语义部分注释来提供更强的监督辅助信息，达到零样本识别和检索的目标。

Mar, 2016