CVPRJan, 2022

基于语义的零样本学习视觉嵌入

TL;DR提出了一种称为 joint embeddings for zero-shot learning 的方法,通过计算代理任务上的两流网络中的联合图像和文本模型来学习语义基础和丰富的视觉信息,并利用辅助字幕来提高图像和文本表示之间的对齐,从而在多个基准数据集上评估了该方法,在标准的(aPY 上 + 1.6%,FLO 上 + 2.6%)和常规的(AWA2 上 + 2.1%,CUB 上 + 2.2%)零 - shot 识别中提高了现有最先进方法的性能。