一见钟情：基于大型多模态模型的天文图像零样本分类

Jun, 2024

一见钟情：基于大型多模态模型的天文图像零样本分类

At First Sight: Zero-Shot Classification of Astronomical Images with Large Multimodal Models

Dimitrios Tanoglidis, Bhuvnesh Jain

TL;DR使用自然语言提示，无需额外训练即可实现视觉－语言多模态模型对低表面亮度星系和艺术品的零样本分类以及星系形态分类，在自然语言提示下，这些模型通常能够实现显著的准确度（通常在 80％以上），我们讨论了一些需要改进的领域，特别是 LLaVA-NeXT，这是一个开源模型，我们的研究结果旨在激励天文学界将视觉－语言多模态模型视为研究和教育的强大工具，并希望未来定制或优化的模型能够表现更好。

Abstract

vision-language multimodal models (VLMs) offer the possibility for zero-shot classification in astronomy: i.e. classification via natural language prompts, with no training. We investigate two models, GPT-4o and LLaVA-NeXT, for →

vision-language multimodal models zero-shot classification low-surface brightness galaxies morphological classification astronomical community

发现论文，激发创造

拓展界限：利用大型多模态模型探索零样本物体分类

该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Dec, 2023

通过使用文本描述使 VLMs 适应性更好的零射分类改进

通过使用大型语言模型（LLMs）生成的类别描述和丰富的细粒度图像分类数据集，我们提出了一种方法来改善视觉 - 语言模型（VLMs）在细粒度领域的零样本分类性能。通过在训练过程中利用图像 - 文本监督，我们的方法在鸟类和花卉等新颖类别的零样本分类准确度上平均提高了 4-5％。地理先验也被证明对于改善零样本分类同样有效，与视觉特征互补。我们计划发布包含 7 个数据集的基准测试，以促进未来的零样本识别研究。

Jan, 2024

视觉增强零样本图像分类的多模态大语言模型

使用多模态大语言模型 (Multimodal LLMs) 的简单且有效方法实现了零样本图像分类，通过生成全面的文本表示从而在交叉模态嵌入空间中生成固定维度特征，在线性分类器上融合这些特征以进行分类，取得了令人瞩目的效果。

May, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

超越人类视角：大型视觉语言模型在显微镜图像分析中的作用

在这项研究中，我们对 ChatGPT、LLaVA、Gemini 和 SAM 进行了分类、分割、计数和 VQA 任务，发现 ChatGPT 和 Gemini 能够令人印象深刻地理解显微镜图像中的视觉特征，而 SAM 则在一般情况下具备分离伪影的能力，但性能还不如领域专家 - 这些模型在图像中存在的杂质、缺陷、伪影重叠和多样性的引入会给其带来困扰。

May, 2024

LLM 见视觉语言模型用于零样本单类别分类

我们提出了一个两步解决方案，首先通过查询大规模语言模型来辨别视觉上具有混淆性的物体，然后依靠视觉 - 语言预训练模型（例如 CLIP）进行分类。通过适应大规模视觉基准测试，我们展示了所提出方法在此情境下优于其他自适应商用替代方案的能力，包括一个在分类树中与正样本在一个固定距离的负样本的细粒度可控版本的 iNaturalist。我们的研究表明，仅通过标签，可以区分单个类别与其他语义相关的类别。

Mar, 2024

LaFTer：使用语言和未标记图像集合进行零样本分类器的无标签调整

本文介绍了一种使用未标记的图像集合和大型语言模型自动生成标签，并通过这种非监督方式实现了零样本分类器性能的显著提高的方法。与传统的监督训练方法相比，在多个数据集上的绝对提升高达 11.7％（平均 3.8％），而与一些少样本提示基线相比的平均增益为 1.3％。

May, 2023

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

一个灵活的框架，通过在大型视觉模型上植入人机协作来分析星系图像数据

通过利用大视觉模型和少样本学习等方法，本文提出了一个通用分析星系图像的框架，解决了天文数据处理中的重复工作和数据分布不平衡的问题，并通过人类知识的加入提高了处理星系图像的可靠性和解释性。该框架在星系图像的多个任务上展现了显著的少样本学习能力和通用适应性，为多模态数据的集成分析提供了可能性。

May, 2024