Objects2action: 不依赖任何视频样例的动作分类与定位

Oct, 2015

Objects2action: 不依赖任何视频样例的动作分类与定位

Objects2action: Classifying and localizing actions without any video example

Mihir Jain, Jan C. van Gemert, Thomas Mensink, Cees G. M. Snoek

TL;DR本文提出了一种基于对象语义嵌入和零样本学习的动作识别方法，实现了对未知动作的识别和定位。

Abstract

The goal of this paper is to recognize actions in video without the need for examples. Different from traditional zero-shot approaches we do not demand the design and specification of attribute classifiers and class-to-attribute mappings to allow for transfer from seen classes to unseen classes. Our key contribution is objects2action, a →

action recognition object2action zero-shot learning semantic word embedding spatio-temporal localization

发现论文，激发创造

用于零样本定位和动作分类的空间感知物体嵌入

本研究旨在通过空间感知物体嵌入实现视频中人类动作的零样本定位和分类，以提高全局对象分类得分并实现新的时空操作检索方案。实验证明，我们的方法在四个当代行动视频数据集中具有竞争优势。

Jul, 2017

用于识别和定位未见过行为的对象先验

本研究提出了一种无需标注视频训练样例来对人类行为在视频中进行分类和空间 - 时间定位。该方法基于物体信息进行分类和定位，引入了三种空间物体先验和三种语义物体先验，并将二者合并为视频嵌入来进行新的视频检索任务，该任务可基于用户指定的对象、空间关系和对象大小来检索视频中的行动。实验表明，空间和语义物体先验对于未知行为的本地化非常有帮助，而使用多语言和简单对象过滤可直接改善语义匹配，从而在未知行为分类和本地化方面达到最新成果。

Apr, 2021

从多样化的物体场景组合中的零样本行为识别

本研究提出了基于物体和场景组成误差与多样性要求的无监督零样本动作识别方法，该方法不需要已训练的视频集，能够有效地提高动作识别效果。

Oct, 2021

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

Action2Vec: 一种跨模态嵌入式行为学习方法

本研究提出了一种新型的跨模态 embedding 空间 ——Action2Vec，该方法将语言线索与视频剪辑的时空特征结合起来，并使用分层循环网络捕获视频特征的时间结构。我们使用联合损失训练嵌入，将分类准确度与 Word2Vec 语义相似性相结合。通过零样本动作识别和两项新颖的类比测试，我们评价了 Action2Vec 模型，并在三个标准数据集上获得了最先进的结果。同时，我们是首个将动词和动作视频组合成联合 embedding 空间，并在分布语义上进行全面评估的研究。

Jan, 2019

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019

双向潜在嵌入的零样本视觉识别

本文提出了一种分阶段的双向潜在嵌入识别框架，通过探索训练数据的拓扑和标签信息，在底部阶段创建了一个潜在嵌入空间，用于引导未知类别的半监督 Sammon 映射，通过最近邻法预测测试实例的标签，最终实验结果表明，该方法在零样本学习和归纳推理设置下达到了最先进的性能水平。

Jul, 2016

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023

视觉语义角色标记

本文介绍了视觉语义角色标注的问题，即在给定图像的情况下，我们希望检测人们进行的动作并定位交互对象，为了实现这个目标，我们注释了一组数据集，并提供了一组基准算法来解决这个问题，并分析了错误模式，为未来的工作提供了方向。

May, 2015