Myriad: 應用視覺專家進行工業異常檢測之大型多模態模型
利用大型视觉语言模型(LVLMs)解决工业异常检测(IAD)问题的关键在于提出了一种基于 LVLM 的新型 IAD 方法 AnomalyGPT,通过模拟异常图像以及为每个图像生成对应的文本描述来生成训练数据,并利用图像解码器提供细粒度语义和设计,通过启示式嵌入 fine-tune LVLM,消除了手动阈值调整的需求,直接评估异常的存在和位置,在 MVTec-AD 数据集上实现了 86.1%的准确率,94.1%的图像级 AUC 和 95.3%的像素级 AUC。
Aug, 2023
这篇论文探讨了工业多模态异常检测任务,利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架,它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时,通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明,我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能,同时实现了更快的推理速度和更低的内存占用,优于先前的多模态异常检测方法。此外,我们提出一种层裁剪技术,在性能上略有损失的同时提高了内存和时间效率。
Dec, 2023
提出了 CMDIAD 框架用于多模态工业异常检测,并通过生成跨模态幻觉来解决缺失模态的问题,探究了以点云或 RGB 图像作为主要推理模态时的性能改善原因,为制造场景中的高效异常检测奠定了基础。
May, 2024
本研究旨在开发一种适用于多个场景的通用异常检测模型,通过将视觉 - 语言基础模型定制为异常检测器和推理器,并引入多模态提示策略,将领域专家的知识作为条件来指导模型,在多模态输入表示中实现多模态异常检测和推理,从而提高异常检测性能。结果表明,该定制模型能够在不同的数据模态(如图像和点云)中检测异常,尤其适用于多物体场景和时间数据。
Mar, 2024
提出了一个大规模、真实世界的多视角工业异常检测数据集(Real-IAD),包含 30 种对象的 15 万张高清图片,相比现有数据集大一个数量级。该数据集具有更大范围的缺陷区域和比例,具有更高的挑战性。在提供了常用 IAD 方法在该数据集上的结果后,为推动 IAD 领域的发展提供了一个极具挑战性的基准。
Mar, 2024
本文提出了一种基于 3D 点云和 RGB 图像的新型多模式异常检测方法 M3DM,其中采用了无监督特征融合、决策层融合和点特征对齐等技术,实验表明该方法优于现有的同类方法。
Mar, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
本研究提出了一种新的方法来增强多模式大型语言模型的可解释性,通过专注于图像嵌入组件。我们将开放世界定位模型与多模式大型语言模型相结合,从而创建一个能够同时产生文本和物体定位输出的新架构。提出的架构极大地促进了可解释性,使我们能够设计一种新的显著性图以解释任何输出标记,识别模型幻觉,并通过语义对抗扰动评估模型的偏见。
May, 2024
提出 Holmes-VAD,一种新颖的框架,利用精确的时间监督和丰富的多模态指令,实现准确的异常定位和全面的解释。
Jun, 2024
提出了 MMIDR 框架,用于教授大型语言模型在多模态错误信息检测中提供流畅、高质量的文本解释,通过数据增强和流程设计,将多模态错误信息转化为适当的指令遵循格式,再利用知识蒸馏方法将专有模型的解释能力传递给开源模型,实验证明 MMIDR 具有足够的检测性能,并能够提供有力的解释支持。
Mar, 2024