零样本动作识别的语义嵌入空间

Feb, 2015

Semantic Embedding Space for Zero-Shot Action Recognition

Xun Xu, Timothy Hospedales, Shaogang Gong

TL;DR本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Abstract

The number of categories for action recognition is growing rapidly. It is thus becoming increasingly hard to collect sufficient training data to learn conventional models for each category. This issue may be ameliorated by the increasingly popular '→

action recognition zero-shot learning semantic word vector self-training data augmentation

发现论文，激发创造

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

零样本人体动作识别的替代语义表示

探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征，结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型，特别是图像语义表示，即使每个类别只是从少量图像中提取的。

Jun, 2017

具有优先级数据增强的多任务零样本动作识别

本研究提出了一种新的视觉 - 语义映射模型和数据加权方法，以缓解零样本学习中所固有的领域移位问题，提高其在带有目标类的数据上的泛化性能。通过采用这种新模型以及数据扩充技术，可以取得零样本动作识别问题的更好实验结果。

Nov, 2016

双向潜在嵌入的零样本视觉识别

本文提出了一种分阶段的双向潜在嵌入识别框架，通过探索训练数据的拓扑和标签信息，在底部阶段创建了一个潜在嵌入空间，用于引导未知类别的半监督 Sammon 映射，通过最近邻法预测测试实例的标签，最终实验结果表明，该方法在零样本学习和归纳推理设置下达到了最先进的性能水平。

Jul, 2016

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

零样本识别的潜在特征判别学习

该研究提出了一种能够自动发现显著区域及在增强的空间中学习辨别性语义表征的端到端网络，用于零样本学习中。在两个具有挑战性的零样本学习数据集上测试，实验结果显示该方法明显优于现有最先进的方法。

Mar, 2018

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023

零样本学习中的语义关系保留

本研究针对零样本学习领域，将语义信息与属性相关联，通过使用一组关系来利用属性所张成的空间结构，提出了一种方法，在嵌入空间中保留这些关系的目标函数，从而导致嵌入空间的语义性的提高。通过在五个基准数据集上进行广泛的实验评估，我们证明了欲使嵌入空间语义化对零样本学习有益。该方法在标准零样本设置以及更加现实的广义零样本设置上均优于现有技术，同时演示了该方法如何对于对于某个没有属性信息的图像做出近似的语义推断是有用的。

Mar, 2018

基于视觉语义嵌入的广义零样本识别

本文提出了一种新颖的广义零样本学习（GZSL）方法，它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙，并借助一个新的视觉神谕来量化噪声语义数据的影响，以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示，该方法在语义和视觉监督下均明显优于现有技术。

Nov, 2018