关键词zero-shot video classification
搜索结果 - 2
- 交替梯度下降和专家混合模型用于综合多模态感知
该研究介绍了一种称为 “Integrated Multimodal Perception(IMP)” 的多模态多任务训练和建模方法,采用转换编码器对图像、视频、文本和音频等多模态输入进行整合处理,在一系列下游任务中实现了竞争性能和提高。在零 - CVPR面向对齐一致性的零样本视频分类表示学习
该论文提出了一个端到端的框架,用于在被观察和未被观察的类别上均保留对比和一致性特性的视觉 - 语义表示,通过同时进行对齐和鼓励学习特征分布均匀的监督式对比损失来促进模型的泛化能力,实验结果表明该方法在 UCF101 和 HMDB51 上的相