Jan, 2024

通过使用文本描述使VLMs适应性更好的零射分类改进

TL;DR通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉-语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像-文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含7个数据集的基准测试,以促进未来的零样本识别研究。