本篇论文探讨零样本学习在现代视频动作识别任务中的应用,采用语义词向量空间作为视频和类别标签的共同空间来解决语义信息相对复杂,并且难以学习的问题。通过自我训练和数据增强等策略,大大提高了这种映射的有效性,在 HMDB51 和 UCF101 等人体动作数据集上,本方法实现了最新的零样本动作识别性能。
Feb, 2015
通过将视频转化为自然语言描述,本文提出一种方法来解决缺少训练集的多媒体理解问题,并且在视频理解任务中发挥了显著的优势,同时还公开了第一个数据集,用于计算社会科学中的说服策略识别。
May, 2023
本文探索了将视频和类别标签嵌入共享语义空间的方法,作为零样本学习(zero-shot learning)动作识别的一种解决方案,并提出了一系列策略来改善标准 ZSL 流程中的泛化问题,大多数策略在性质上是转导的,这意味着在训练阶段可以访问测试数据。
Nov, 2015
探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征,结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型,特别是图像语义表示,即使每个类别只是从少量图像中提取的。
Jun, 2017
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
本论文介绍了零样本动作识别在视频方面的研究现状,总结了可视化特征提取和语义特征提取的方法,并提供了完整的数据集、实验和协议描述,指出了未来工作的方向。
Sep, 2019
本文提出了一种新的端到端训练 Transformer 模型的方法,能够高效地捕捉长期时空依赖性,在零样本学习方面获得了最新进展,通过避免训练和测试类之间的重叠,提出了一个新的实验设置方案,该方法在 UCF-101、HMDB-51 和 ActivityNet 数据集上的 top-1 准确性明显优于现有技术的水平。
Mar, 2022
本研究提出了基于物体和场景组成误差与多样性要求的无监督零样本动作识别方法,该方法不需要已训练的视频集,能够有效地提高动作识别效果。
Oct, 2021
利用视频标题进行丰富的跨模态和跨行动建模,提出了 CoCo 框架,包括双重跨模态对齐模块和跨行动不变性挖掘模块,并通过动作描述数据集 ActionHub 在零样本行动识别 (ZSAR) 的三个热门基准测试中实现了明显的效果优于。我们的 CoCo 框架。
Jan, 2024
利用多个文本来源和语义部分注释来提供更强的监督辅助信息,达到零样本识别和检索的目标。
Mar, 2016