拓展界限：利用大型多模态模型探索零样本物体分类

Dec, 2023

拓展界限：利用大型多模态模型探索零样本物体分类

Pushing Boundaries: Exploring Zero Shot Object Classification with Large Multimodal Models

Ashhadul Islam, Md. Rafiul Biswas, Wajdi Zaghouani, Samir Brahim Belhaouari, Zubair Shah

TL;DR该研究论文以大型多模型为主题，探索了通过特定数据集设计的提示词，使用 LMMs 来执行图像分类任务的功效，并研究了 LLVAs 的零样本学习能力。通过四个不同的数据集的基准分析，实验结果表明模型在 MNIST，Cats Vs. Dogs，Hymnoptera（Ants Vs. Bees）以及 Pox Vs. Non-Pox 皮肤图像等各个数据集上均取得了显著的性能，无需进行任何微调即可达到 85％，100％，77％和 79％的分类准确率。此外，细调后模型在面部照片和自闭症儿童的数据集上分别表现出了显著的改进，强调了 LLVAs 的变革潜力和在现实场景中的多样应用。

Abstract

$ $The synergy of language and vision models has given rise to Large Language and Vision Assistant models (LLVAs), designed to engage users in rich conversational experiences intertwined with image-based queries. These comprehensive multimodal models seamlessly integrate vision encoders with Large Language Models (LLMs), expanding their applications in gener

large multimodal models image classification zero-shot learning benchmarking analysis fine-tuning

发现论文，激发创造

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

大型语言模型是低样本图像分类的良好触发器学习者

通过整合大型语言模型（LLMs）提升预训练视觉 - 语言模型（VL）在低样本图像分类中的能力，提出了大型语言模型作为提示学习者（LLaMP）的方法，并在 11 个数据集上的零样本和小样本图像分类任务中取得了更好的性能。

Dec, 2023

多模态大型语言和视觉模型综述

通过对具有多模态能力的 LLM 和 MM-LLM 的当前状况进行广泛回顾，本文涵盖了 LLM 的历史发展、注意力机制在提升模型性能方面的作用，以及 Fine-tuning 和 prompt engineering 等模型调整技术。同时还分析了伦理考虑和挑战，并讨论了开源和专有模型在 AI 研究中的影响。通过这个综述，我们揭示了 MM-LLM 在各种应用中的转型潜力。

Mar, 2024

大型语言模型中利用标签变异进行零样本文本分类

使用 5 种最先进的大型语言模型（LLMs）作为 “标注者” 在多个任务上进行评估，并比较其与人类标注的优缺点。总体而言，尽管 LLMs 在某些任务上表现出色，但它们无法替代人类标注的需求。

Jul, 2023

探索视觉 - 语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

VisionLLM：大型语言模型也是面向视觉中心任务的开放式解码器

本篇论文提出了一种基于大型语言模型的视觉中心任务框架 VisionLLM，通过将图像视为一种外语并使用语言指令对其进行灵活定义和管理，从而统一了视觉和语言任务的视角，具有不同级别的任务定制能力，成为一种通用的视觉和语言模型。

May, 2023

Cheap and Quick: 大型语言模型高效的视觉语言指导调整

本研究提出了混合模态适应方法（MMA），它采用轻量级的适配器模块来搭建 LLMs 和 VL 任务之间的桥梁，实现图像和语言模型的联合优化，同时具有自适应切换单模和多模指令的功能。该方法被应用于 LaBIn 大型视觉语言指导模型，并在两种场景下进行了实验验证，表明其训练效率和性能竞争力均优于现有多模 LLMs，且具有成为通用聊天机器人的潜力。

May, 2023

多模态自回归建模基于视觉单词

成功进行多模态自回归建模，并首次提出了视觉词概念，将视觉特征映射到 LLMs 词汇的概率分布，为视觉建模提供了监督信息。通过对 5 个 VQA 任务和 4 个基准工具包的实验结果和消融研究的验证，证明了我们提出方法的强大性能。

Mar, 2024

通过视觉指导优化的改进基准模型

通过对 LLaVA 进行简单修改，采用 CLIP-ViT-L-336px 与 MLP 投影以及添加面向学术任务的 VQA 数据，我们建立了更强的基线模型，在 11 个基准测试中达到了最新的成果。

Oct, 2023

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024