一见钟情:基于大型多模态模型的天文图像零样本分类
该研究论文以大型多模型为主题,探索了通过特定数据集设计的提示词,使用 LMMs 来执行图像分类任务的功效,并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析,实验结果表明模型在 MNIST,Cats Vs. Dogs,Hymnoptera(Ants Vs. Bees)以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能,无需进行任何微调即可达到 85%,100%,77%和 79%的分类准确率。此外,细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进,强调了 LLVAs 的变革潜力和在现实场景中的多样应用。
Dec, 2023
通过使用大型语言模型(LLMs)生成的类别描述和丰富的细粒度图像分类数据集,我们提出了一种方法来改善视觉 - 语言模型(VLMs)在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督,我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5%。地理先验也被证明对于改善零样本分类同样有效,与视觉特征互补。我们计划发布包含 7 个数据集的基准测试,以促进未来的零样本识别研究。
Jan, 2024
使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类,通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征,在线性分类器上融合这些特征以进行分类,取得了令人瞩目的效果。
May, 2024
本文研究视觉与语言模型在零样本视觉识别任务中的应用难点,并针对对比视觉 - 语言模型(CLIP)等模型进行探讨。研究表明,模型更擅长识别细粒度概念,并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法,以评估其学习性偏差问题,并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战,并为进一步提高其零样本能力提出了方向建议。
Jun, 2023
在这项研究中,我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务,发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征,而 SAM 则在一般情况下具备分离伪影的能力,但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。
May, 2024
我们提出了一个两步解决方案,首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体,然后依靠视觉 - 语言预训练模型(例如 CLIP)进行分类。通过适应大规模视觉基准测试,我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力,包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明,仅通过标签,可以区分单个类别与其他语义相关的类别。
Mar, 2024
本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签,并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比,在多个数据集上的绝对提升高达 11.7%(平均 3.8%),而与一些少样本提示基线相比的平均增益为 1.3%。
May, 2023
本文介绍了一种训练无关的方法 ALFA,旨在解决零射击视觉异常检测的挑战,包括生成信息性的异常提示和精确的异常定位,通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比,在 MVTec AD 和 VisA 数据集上,ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。
Apr, 2024
通过利用大视觉模型和少样本学习等方法,本文提出了一个通用分析星系图像的框架,解决了天文数据处理中的重复工作和数据分布不平衡的问题,并通过人类知识的加入提高了处理星系图像的可靠性和解释性。该框架在星系图像的多个任务上展现了显著的少样本学习能力和通用适应性,为多模态数据的集成分析提供了可能性。
May, 2024