Oct, 2023

基于字幕基础模型的少样本动作识别

TL;DR通过 CapFSAR 框架,我们利用预训练的多模态基础模型的知识,从合成描述中提取视觉特征和相关文本嵌入,并设计了基于 Transformer 的视觉文本聚合模块,以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中,我们的 CapFSAR 方法表现优于现有方法,并达到了最先进的性能。