多模态异常检测与推理的自定义视觉语言基础模型

Mar, 2024

多模态异常检测与推理的自定义视觉语言基础模型

Customizing Visual-Language Foundation Models for Multi-modal Anomaly Detection and Reasoning

Xiaohao Xu, Yunkang Cao, Yongqi Chen, Weiming Shen, Xiaonan Huang

TL;DR本研究旨在开发一种适用于多个场景的通用异常检测模型，通过将视觉 - 语言基础模型定制为异常检测器和推理器，并引入多模态提示策略，将领域专家的知识作为条件来指导模型，在多模态输入表示中实现多模态异常检测和推理，从而提高异常检测性能。结果表明，该定制模型能够在不同的数据模态（如图像和点云）中检测异常，尤其适用于多物体场景和时间数据。

Abstract

anomaly detection is vital in various industrial scenarios, including the identification of unusual patterns in production lines and the detection of manufacturing defects for quality control. Existing techniques tend to be specialized in individual scenarios and lack generalization ca

anomaly detection generic model multi-modal prompting visual-language foundation models data modalities

发现论文，激发创造

多图像视觉问答用于无监督异常检测

通过使用语言模型以增强未监督异常检测的解释性，我们能够构建一个包含问题和答案的数据集，并提出一种新的多图像视觉问答框架来应对异常检测，其中融合了多样的特征融合策略以增强视觉知识提取。

Apr, 2024

Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型

提出了一种应用视觉专家进行工业异常检测的新型大型多模型（Myriad）模型，通过使用视觉专家的先验知识嵌入到大型语言模型中，实现了明确的异常检测和高质量的异常描述。

Oct, 2023

通过合成任务数据评估多模态推理模型的能力

该论文通过高分辨率的文本图像生成技术，开发了一种针对多模态推理任务的评估数据生成框架，并使用此框架生成了一种复杂且缺乏数据集支持的任务的合成数据集，以进行性能测试。研究发现，在这项任务上，最先进的视觉问答模型的性能明显低于标准 VQA 任务。

Jun, 2023

通往通用异常检测和理解的道路：大规模视觉语言模型（GPT-4V）领先

使用 GPT-4V 模型进行多模态异态检测任务，包括图像、视频、点云和时间序列数据，在工业、医学、逻辑、视频和 3D 异态检测以及定位任务等多个应用领域中，通过引入类别信息、人类专业知识和参考图像等提示来提高模型性能。在实验中，GPT-4V 模型证明在零 / 一次检测中能够高效地检测和解释全局和细粒度语义模式，从而能够准确区分正常和异常实例，展现出潜在的通用异态检测能力，为异态检测开辟了新的方法。

Nov, 2023

利用语言模态的指导改进视觉异常检测

该论文提出了跨模态引导（CMG）方法，通过跨模态熵减少（CMER）和跨模态线性嵌入（CMLE）来解决视觉模态中多余信息和稀疏空间的问题，实验证明该方法优于仅使用图像的基准方法 16.81%。

Oct, 2023

基于人工提取的无人机驱动的异常检测：元引导提示策略中的提示优化

我们提出了一种无需人工干预的基于提示的异常检测框架，通过数据驱动方法优化学习提示，解决了训练阶段缺乏异常样本的问题，并通过合理调整梯度方向和局部注意力机制，实现了像素级异常分割的高准确度。

Jun, 2024

面向医学图像的通用异常检测的视觉语言模型的适应

本文介绍了一种用于医学异常检测的轻量级多层次自适应对比框架，通过将多个残差适配器整合到预训练的视觉编码器中，通过多级像素级视觉 - 语言特征对齐损失函数引导多级适应，使其适用于医学图像。实验结果表明，我们的方法在医学异常检测基准上显著超越了当前最先进的模型，在零样本和少样本情况下分别实现了 6.24% 和 7.33% 的平均 AUC 提升用于异常分类，以及 2.03% 和 2.37% 的平均 AUC 提升用于异常分割。

Mar, 2024

通过适应预训练视觉语言模型进行异常检测

我们提出了一个统一的框架 CLIP-ADA 用于通过适应预训练 CLIP 模型进行异常检测，在这个框架中，我们通过引入可学习的提示，并通过自监督学习将其与异常模式关联起来，从而获得多类别工业图像上的统一异常检测，并且通过引入异常区域细化策略来充分利用 CLIP 的表示能力来提高定位质量，我们的框架在 MVTec-AD 和 VisA 上取得了 97.5/55.6 和 89.3/33.1 的最新成果，以及在极小的训练数据下取得了令人鼓舞的性能，这更具挑战性。

Mar, 2024

从事件提示中学习视频异常检测中的疑似异常

提出了一种用于弱监督视频异常检测的新颖框架，通过计算潜在异常事件的文本提示词典与异常视频生成的字幕之间的语义异常相似性，标识每个视频片段的疑似异常事件，并通过多提示学习过程约束所有视频的视觉 - 语义特征，提供了一种为自训练标记伪异常的新方法。通过全面实验和详细消融研究，在四个数据集（XD-Violence、UCF-Crime、TAD、ShanghaiTech）上表现出优于大多数最先进方法的性能（82.6%，87.7%，93.1% 和 97.4%），并在开放集和跨数据集情况下展示了有希望的性能。

Mar, 2024

多模态工业异常检测通过交叉模态特征映射

这篇论文探讨了工业多模态异常检测任务，利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架，它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时，通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明，我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能，同时实现了更快的推理速度和更低的内存占用，优于先前的多模态异常检测方法。此外，我们提出一种层裁剪技术，在性能上略有损失的同时提高了内存和时间效率。

Dec, 2023