May, 2022

跨模态表示学习用于零样本动作识别

TL;DR本篇研究提出了一种基于跨模态Transformer的框架,用于零样本动作识别,其将视频数据和文本标签进行联合编码,并通过一个新的管道来构建视觉和语义表示之间的共享知识空间,其中包括了一个语义传递的策略,通过将已有和未见的课程联合在一起,提高了在UCF101、HMDB51和ActivityNet基准数据集中的顶级准确度。