Sep, 2024

面向细粒度视觉识别的生成类提示学习

TL;DR该研究解决了基础视觉-语言模型在细粒度分类任务中的表现不足以及跨域迁移学习的挑战。提出的生成类提示学习(GCPL)和对比多类提示学习(CoMPLe)方法,通过生成建模显著提升了类别嵌入的视觉语言协同,并在少量样本图像识别任务中表现优异,展现出显著的改进效果。