零样本动作识别的语义嵌入空间
本文探索了将视频和类别标签嵌入共享语义空间的方法,作为零样本学习(zero-shot learning)动作识别的一种解决方案,并提出了一系列策略来改善标准 ZSL 流程中的泛化问题,大多数策略在性质上是转导的,这意味着在训练阶段可以访问测试数据。
Nov, 2015
探索了零样本人类动作识别的两种替代语义表示 —— 人类动作的文本描述和从与人类动作相关的静止图像中提取的深度特征,结果表明我们提出的基于文本和图像的语义表示显著优于传统属性和向量模型,特别是图像语义表示,即使每个类别只是从少量图像中提取的。
Jun, 2017
本研究提出了一种新的视觉 - 语义映射模型和数据加权方法,以缓解零样本学习中所固有的领域移位问题,提高其在带有目标类的数据上的泛化性能。通过采用这种新模型以及数据扩充技术,可以取得零样本动作识别问题的更好实验结果。
Nov, 2016
本文提出了一种分阶段的双向潜在嵌入识别框架,通过探索训练数据的拓扑和标签信息,在底部阶段创建了一个潜在嵌入空间,用于引导未知类别的半监督 Sammon 映射,通过最近邻法预测测试实例的标签,最终实验结果表明,该方法在零样本学习和归纳推理设置下达到了最先进的性能水平。
Jul, 2016
本篇研究提出了一种基于跨模态 Transformer 的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在 UCF101、HMDB51 和 ActivityNet 基准数据集中的顶级准确度。
May, 2022
该研究提出了一种能够自动发现显著区域及在增强的空间中学习辨别性语义表征的端到端网络,用于零样本学习中。在两个具有挑战性的零样本学习数据集上测试,实验结果显示该方法明显优于现有最先进的方法。
Mar, 2018
通过引入包含丰富文本描述的 Stories 数据集,我们提出了一种新的方法来处理视频理解中的零样本学习问题,该方法可以在多个基准测试中取得新的最佳效果,提高了顶级准确率。
Sep, 2023
本研究针对零样本学习领域,将语义信息与属性相关联,通过使用一组关系来利用属性所张成的空间结构,提出了一种方法,在嵌入空间中保留这些关系的目标函数,从而导致嵌入空间的语义性的提高。通过在五个基准数据集上进行广泛的实验评估,我们证明了欲使嵌入空间语义化对零样本学习有益。该方法在标准零样本设置以及更加现实的广义零样本设置上均优于现有技术,同时演示了该方法如何对于对于某个没有属性信息的图像做出近似的语义推断是有用的。
Mar, 2018
本文提出了一种新颖的广义零样本学习(GZSL)方法,它对训练期间的未见图像和未见语义向量具有不可知性。通过提出一种视觉实例的低维嵌入来打破视觉 - 语义间隙,并借助一个新的视觉神谕来量化噪声语义数据的影响,以提高准确性。在一系列数据集上用图模型进行推理的实验结果显示,该方法在语义和视觉监督下均明显优于现有技术。
Nov, 2018