针对零样本动作识别的端到端语义视频变换器

Mar, 2022

针对零样本动作识别的端到端语义视频变换器

End-to-End Semantic Video Transformer for Zero-Shot Action Recognition

Keval Doshi, Yasin Yilmaz

TL;DR本文提出了一种新的端到端训练 Transformer 模型的方法，能够高效地捕捉长期时空依赖性，在零样本学习方面获得了最新进展，通过避免训练和测试类之间的重叠，提出了一个新的实验设置方案，该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。

Abstract

While video action recognition has been an active area of research for several years, zero-shot action recognition has only recently started gaining traction. In this work, we propose a novel end-to-end trained transfor

zero-shot action recognition transformer model spatiotemporal dependencies zero-shot learning state of the art

发现论文，激发创造

跨模态表示学习用于零样本动作识别

本篇研究提出了一种基于跨模态 Transformer 的框架，用于零样本动作识别，其将视频数据和文本标签进行联合编码，并通过一个新的管道来构建视觉和语义表示之间的共享知识空间，其中包括了一个语义传递的策略，通过将已有和未见的课程联合在一起，提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。

May, 2022

零样本动作识别的语义嵌入空间

本篇论文探讨零样本学习在现代视频动作识别任务中的应用，采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂，并且难以学习的问题。通过自我训练和数据增强等策略，大大提高了这种映射的有效性，在 HMDB51 和 UCF101 等人体动作数据集上，本方法实现了最新的零样本动作识别性能。

Feb, 2015

视频零样本动作识别：一项调查

本论文介绍了零样本动作识别在视频方面的研究现状，总结了可视化特征提取和语义特征提取的方法，并提供了完整的数据集、实验和协议描述，指出了未来工作的方向。

Sep, 2019

一种基于语义和运动感知的时空转换网络实现动作检测

本文介绍了一种新颖的时空变换网络，其中引入了几个原创组件以在未修剪视频中检测动作。该网络通过多特征选择性语义注意力模型计算空间和运动特征之间的关联，使用运动感知网络编码视频帧中的动作位置，并采用序列基础的时间注意力模型捕捉动作帧中的异质时间依赖关系，该方法在四个时空动作数据集上优于最先进的解决方案：AVA 2.2、AVA 2.1、UCF101-24 和 EPIC-Kitchens。

May, 2024

ActNetFormer：半监督视频动作识别的 Transformer-ResNet 混合方法

提出了一种使用跨体系伪标签与对比度学习的半监督行为识别方法，其中结合 3D 卷积神经网络（3D CNN）和视频变换器（VIT）的独特方法能够有效捕捉行为的局部和全局上下文信息，从而在标记数据的一小部分情况下实现了卓越的性能。

Apr, 2024

使用词向量嵌入的归纳零样本动作识别

本文探索了将视频和类别标签嵌入共享语义空间的方法，作为零样本学习（zero-shot learning）动作识别的一种解决方案，并提出了一系列策略来改善标准 ZSL 流程中的泛化问题，大多数策略在性质上是转导的，这意味着在训练阶段可以访问测试数据。

Nov, 2015

常识零样本动作识别故事讲述

通过引入包含丰富文本描述的 Stories 数据集，我们提出了一种新的方法来处理视频理解中的零样本学习问题，该方法可以在多个基准测试中取得新的最佳效果，提高了顶级准确率。

Sep, 2023

视频动作转换网络

本文介绍了行动转换器模型用于识别和定位视频剪辑中的人类动作，使用 Transformer 风格的架构聚合人物周围的时空背景特征，通过高分辨率、个性化、类别不可知的查询，该模型自动学习跟踪个人并从他人的动作中获取语义上下文

Dec, 2018

零样本动作识别的详细排练

本文提出了一种基于 Elaborative Rehearsal 技术的 ER-enhanced ZSAR 模型，该模型使用 Elaborative Description 和 Elaborative Concepts 来扩展动作类别以及提高视频语义，从而实现了零样本行为识别任务的最新成果，并在与 few-shot learning 模型的比较中提供针对 Kinetics 数据集的全新 ZSAR 评估方案。

Aug, 2021

视觉 Transformer 在动作识别中的应用：一份调研报告

本文针对视觉 transformer 在人体动作识别领域的研究进展进行了综述，主要就其架构、模态、目标、编码、降维、自监督学习、评估指标等方面展开阐述，并探讨了其存在的挑战和未来发展方向。

Sep, 2022