为何视觉与语言结合的模型在图像分类上不佳?
本文介绍了一种基于描述符的视觉语言模型分类方法,通过查询大型语言模型获取描述符,实现从中获得更多的信息并提供可解释性;实验证明了该方法在图像分类精度,适应新概念和缓解偏差等方面有着广泛的优势。
Oct, 2022
通过使用简单的线性探测器,本研究探讨了如何从 CLIP 的嵌入中有效地提取特定任务的核心特征,结果显示 CLIP 的文本表示往往受到了有偏向的预训练数据中具有误导性的相关性的影响,实证结果表明相比文本嵌入,依赖于 CLIP 的视觉表示更为实用,可克服内置偏见。
May, 2024
本文针对 Vision-Language models 在处理 imbalanced dataset 时性能较差的问题,提出了加入 lightweight decoder 和 imbalanced 方法的改进方案,并在 ImageNet-LT iNaturalist18 和 Places-LT 三个数据集上进行了实验,证明改进后的 VLMs 相较于原来的 zero-shot classification 方法,在准确率上有显著提升。
Apr, 2023
通过自然语言提示,我们提出了一种新颖的视觉语言模型微调方法,利用基于对话的大型语言模型作为黑盒优化器,在少样本图像分类任务中通过对话过程中的文本反馈,自动搜索最佳文本提示,从而避免了对模型参数、特征嵌入或输出标签的访问。
Sep, 2023
本研究介绍了 CascadeVLM,一种创新的框架,通过有效地利用大型视觉 - 语言模型(LVLMs)内固有的精细知识,克服了以前基于 CLIP 的方法的限制。在各种细粒度图像数据集上的实验表明,CascadeVLM 在 Stanford Cars 数据集上显著优于现有模型,达到了令人印象深刻的 85.6% 的零样本准确性。性能增益分析验证了 LVLM 对于 CLIP 不确定的复杂图像的更准确预测,从而提高了整体准确性。我们的框架为有效和高效的细粒度图像分类提供了 VLM 与 LVLM 的整体集成方法。
May, 2024
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.
Mar, 2024
对大型视觉语言模型在地球观测数据中的能力进行了评估,发现其在场景理解和空间推理等任务上表现出色,但在物体定位和计数任务上有一定局限性,因此提出了一个全面的评估基准。
Jan, 2024
通过一系列标准化评估和深入研究,提供了视觉相关语言模型 (VLMs) 的能力和设计决策,包括图像预处理、架构和优化等方面的细致洞察。
Feb, 2024
通过整合大型语言模型(LLMs)提升预训练视觉 - 语言模型(VL)在低样本图像分类中的能力,提出了大型语言模型作为提示学习者(LLaMP)的方法,并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。
Dec, 2023