Jul, 2023

Proto-CLIP: 视觉-语言原型网络在少样本学习中的应用

TL;DR我们提出了一种利用CLIP等大规模视觉语言模型进行少样本学习的新框架PROT0-CLIP。该框架通过图像原型和文本原型实现少样本学习,并通过对齐相应类别的图像和文本原型来提高分类效果。我们通过在少样本学习的基准数据集上以及在机器人感知领域的实际应用中进行实验证明了我们方法的有效性。