May, 2024

为何视觉与语言结合的模型在图像分类上不佳?

TL;DR基于本文的研究发现,将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能,并将性能提升转移到其一般能力上,对于新收集的 ImageWikiQA 数据集,准确率提高了 11.8%。