Nov, 2023

面向少样本动作识别的语义感知视频表示

TL;DR我们提出了一种简单而有效的语义感知少样本动作识别模型(SAFSAR),该模型通过直接利用 3D 特征提取器与有效的特征融合方案以及简单的余弦相似度分类,实现了更好的性能,无需复杂的距离函数和额外的时间建模组件。在这种方案中,SAFSAR 以一种紧凑的方式实现了对文本语义的编码、视频表示的自适应特征融合,并鼓励视觉编码器提取更具语义一致性的特征。在各种设置下对五个具有挑战性的少样本动作识别基准进行的实验证明,所提出的 SAFSAR 模型显著提高了最先进的性能。