AnomalyGPT：利用大型视觉 - 语言模型检测工业异常

Aug, 2023

AnomalyGPT：利用大型视觉 - 语言模型检测工业异常

AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang...

TL;DR利用大型视觉语言模型（LVLMs）解决工业异常检测（IAD）问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT，通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据，并利用图像解码器提供细粒度语义和设计，通过启示式嵌入 fine-tune LVLM，消除了手动阈值调整的需求，直接评估异常的存在和位置，在 MVTec-AD 数据集上实现了 86.1％的准确率，94.1％的图像级 AUC 和 95.3％的像素级 AUC。

Abstract

large vision-language models (LVLMs) such as MiniGPT-4 and LLaVA have demonstrated the capability of understanding images and achieved remarkable performance in various visual tasks. Despite their strong abilities in recognizing common objects due to extensive training datasets, they l

large vision-language models industrial anomaly detection anomalygpt lvlm mvtec-ad dataset

发现论文，激发创造

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024

Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型

提出了一种应用视觉专家进行工业异常检测的新型大型多模型（Myriad）模型，通过使用视觉专家的先验知识嵌入到大型语言模型中，实现了明确的异常检测和高质量的异常描述。

Oct, 2023

探索面向 VQA 的 GPT-4V 在零样本异常检测中的接地潜力

GPT-4V-AD, a VQA-oriented framework utilizing the Large Multimodal Model (LMM) GPT-4V, shows promise in the zero-shot Anomaly Detection (AD) task, achieving certain results but with room for improvement compared to state-of-the-art methods.

Nov, 2023

基于人工提取的无人机驱动的异常检测：元引导提示策略中的提示优化

我们提出了一种无需人工干预的基于提示的异常检测框架，通过数据驱动方法优化学习提示，解决了训练阶段缺乏异常样本的问题，并通过合理调整梯度方向和局部注意力机制，实现了像素级异常分割的高准确度。

Jun, 2024

利用大型语言模型实现免训练视频异常检测

视频异常检测 (VAD) 旨在暂时定位视频中的异常事件。本文提出了一种名为 LAnguage-based VAD (LAVAD) 的方法，利用预训练的大型语言模型 (LLMs) 和现有的视觉 - 语言模型 (VLMs) 来处理 VAD，通过生成每个测试视频的文字描述，设计了一种启动机制，将 LLMs 转化为有效的视频异常检测器，并结合跨模态相似度进行清理和改善 LLMs 的基于异常评分的方法。在两个具有真实监控场景的大型数据集 (UCF-Crime 和 XD-Violence) 上评估 LAVAD，结果显示它在不需要任何训练或数据收集的情况下优于无监督和单类方法。

Apr, 2024

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案，通过合成数据集，我们训练了 ALLaVA 模型，该模型在 12 个基准测试中取得了竞争性的性能，展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。

Feb, 2024

IQAGPT：基于视觉语言和 ChatGPT 模型的图像质量评估

在医学成像中，本研究以 IQAGPT 为例，结合了图像质量说明的 VLM 和 ChatGPT，利用大型语言模型实现图像质量评估和生成文本报告。结果表明 IQAGPT 在图像质量评估方面表现优异，超过了 GPT-4、CLIP-IQA 和仅依赖图像的多任务分类和回归模型。

Dec, 2023

VisionGPT: 基于 LLM 辅助的实时异常检测用于安全视觉导航

利用 Yolo-World 目标检测模型和专门的提示，本文探讨了大型语言模型（LLMs）在零样本异常检测中的潜力，实现了识别摄像头捕获帧中的异常并生成简洁的音频描述，从而在复杂环境中协助安全的视觉导航。此外，本文还探讨了不同提示组件的性能贡献，并为视觉辅助性的未来改进提供了展望，并为 LLMs 在视频异常检测和视觉语言理解方面铺平了道路。

Mar, 2024

通过适应预训练视觉语言模型进行异常检测

我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Mar, 2024