Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型

Oct, 2023

Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

Yuanze Li, Haolin Wang, Shihao Yuan, Ming Liu, Yiwen Guo...

TL;DR提出了一种应用视觉专家进行工业异常检测的新型大型多模型（Myriad）模型，通过使用视觉专家的先验知识嵌入到大型语言模型中，实现了明确的异常检测和高质量的异常描述。

Abstract

Existing industrial anomaly detection (IAD) methods predict anomaly scores for both anomaly detection and localization. However, they struggle to perform a multi-turn dialog and detailed descriptions for anomaly regions, e.g., color, shape, and categories of industrial anomalies. Recen

industrial anomaly detection multi-modal model anomaly description vision experts anomaly prediction

发现论文，激发创造

AnomalyGPT：利用大型视觉 - 语言模型检测工业异常

利用大型视觉语言模型（LVLMs）解决工业异常检测（IAD）问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT，通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据，并利用图像解码器提供细粒度语义和设计，通过启示式嵌入 fine-tune LVLM，消除了手动阈值调整的需求，直接评估异常的存在和位置，在 MVTec-AD 数据集上实现了 86.1％的准确率，94.1％的图像级 AUC 和 95.3％的像素级 AUC。

Aug, 2023

多模态工业异常检测通过交叉模态特征映射

这篇论文探讨了工业多模态异常检测任务，利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架，它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时，通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明，我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能，同时实现了更快的推理速度和更低的内存占用，优于先前的多模态异常检测方法。此外，我们提出一种层裁剪技术，在性能上略有损失的同时提高了内存和时间效率。

Dec, 2023

跨模态蒸馏在工业异常检测中的应用：高效多模态 IAD 的探索

提出了 CMDIAD 框架用于多模态工业异常检测，并通过生成跨模态幻觉来解决缺失模态的问题，探究了以点云或 RGB 图像作为主要推理模态时的性能改善原因，为制造场景中的高效异常检测奠定了基础。

May, 2024

多模态异常检测与推理的自定义视觉语言基础模型

本研究旨在开发一种适用于多个场景的通用异常检测模型，通过将视觉 - 语言基础模型定制为异常检测器和推理器，并引入多模态提示策略，将领域专家的知识作为条件来指导模型，在多模态输入表示中实现多模态异常检测和推理，从而提高异常检测性能。结果表明，该定制模型能够在不同的数据模态（如图像和点云）中检测异常，尤其适用于多物体场景和时间数据。

Mar, 2024

Real-IAD: 用于评估多视角工业异常检测的现实世界数据集

提出了一个大规模、真实世界的多视角工业异常检测数据集（Real-IAD），包含 30 种对象的 15 万张高清图片，相比现有数据集大一个数量级。该数据集具有更大范围的缺陷区域和比例，具有更高的挑战性。在提供了常用 IAD 方法在该数据集上的结果后，为推动 IAD 领域的发展提供了一个极具挑战性的基准。

Mar, 2024

基于混合融合的多模态工业异常检测

本文提出了一种基于 3D 点云和 RGB 图像的新型多模式异常检测方法 M3DM，其中采用了无监督特征融合、决策层融合和点特征对齐等技术，实验表明该方法优于现有的同类方法。

Mar, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

分析多模态大型语言模型的视觉感知

本研究提出了一种新的方法来增强多模式大型语言模型的可解释性，通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合，从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性，使我们能够设计一种新的显著性图以解释任何输出标记，识别模型幻觉，并通过语义对抗扰动评估模型的偏见。

May, 2024

Holmes-VAD: 通过多模态 LLM 实现无偏和可解释的视频异常检测

提出 Holmes-VAD，一种新颖的框架，利用精确的时间监督和丰富的多模态指令，实现准确的异常定位和全面的解释。

Jun, 2024

MMIDR：通过知识蒸馏教授大型语言模型解读多模态误信息

提出了 MMIDR 框架，用于教授大型语言模型在多模态错误信息检测中提供流畅、高质量的文本解释，通过数据增强和流程设计，将多模态错误信息转化为适当的指令遵循格式，再利用知识蒸馏方法将专有模型的解释能力传递给开源模型，实验证明 MMIDR 具有足够的检测性能，并能够提供有力的解释支持。

Mar, 2024