Jul, 2024

视觉语言模型的失明

TL;DR利用大型语言模型嵌入视觉功能的研究表明,当前最先进的模型在一些简单的视觉任务上表现严重不足,其视觉能力相当于近视者模糊地看到细节,甚至盲人也可以进行有根据的猜测。