OCR 全能者：将多模态引入基于图像的缺陷检测系统

Mar, 2024

OCR 全能者：将多模态引入基于图像的缺陷检测系统

OCR is All you need: Importing Multi-Modality into Image-based Defect Detection System

Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu

TL;DR通过基于 OCR 的外部模态引导的数据挖掘框架，我们引入一种名为 OANet（Ocr-Aoi-Net）的方法来提取图像的统计特征作为第二个模态，以提升自动光学检测（AOI）模型的性能，并通过特征的精细融合和优化来提高推理和决策能力，在挑战性场景中明显提高缺陷检测模型的召回率并保持高鲁棒性。

Abstract

automatic optical inspection (aoi) plays a pivotal role in the manufacturing process, predominantly leveraging high-resolution imaging instruments for scanning purposes. It detects anomalies by analyzing

automatic optical inspection aoi manufacturing process image textures defect detection

发现论文，激发创造

VizInspect Pro -- 自动光学检测（AOI）解决方案

VizInspect pro 是基于 Leo 边缘 AI 平台，采用基于深度学习的图像分析技术，具有高速和准确性、无需机器学习或视觉专业知识配置检测方案等特点，是一种专门用于工厂自动化的通用计算机视觉检测方案。本文展示了该解决方案和平台如何解决模型开发、部署、多重推理和可视化等问题，并已通过多个外部企业客户进行了验证。

May, 2022

利用遥感图像和多语义信息进行城市功能区检测的多模态学习

我们提出了一种端到端多模态深度学习算法，用于检测利用遥感图像和多语义参考信息的城市感兴趣区域围栏多边形，通过融合动态人类流动性和物流地址信息的级联模块来评估其时效性。实验结果表明，我们的算法明显优于两种现有方法。

Jan, 2024

基于 GP-WGAN 和增强 Faster R-CNN 的稀有缺陷自动视觉检测框架

本文提出了一种基于深度学习的两阶段故障诊断框架，第一阶段通过数据扩增增强图像处理性能，第二阶段则使用改进后的深度学习架构进行对象检测，在两个多类别数据集上的实验结果表明，该框架优于其他解决方案。

May, 2021

基于人工智能缺陷检测和分类模型的形态图像分析与特征提取

提出了 AI 推理器，它从图像中提取缺陷的形态特征（DefChars），并利用决策树对 DefChar 值进行推理，随后导出可视化和文字解释以提供对基于掩膜的缺陷检测和分类模型输出的洞察，并为增强数据预处理和整体模型性能提供有效的缓解策略。通过对包含缺陷的 366 张图像的 IE Mask R-CNN 模型输出进行解释，测试了 AI 推理器的有效性，结果展示了它在解释 IE Mask R-CNN 模型的预测方面的有效性。总体而言，提出的 AI 推理器为需要缺陷分析的工业应用中改善 AI 模型的性能提供了解决方案。

Jul, 2023

多模态工业异常检测通过交叉模态特征映射

这篇论文探讨了工业多模态异常检测任务，利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架，它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时，通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明，我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能，同时实现了更快的推理速度和更低的内存占用，优于先前的多模态异常检测方法。此外，我们提出一种层裁剪技术，在性能上略有损失的同时提高了内存和时间效率。

Dec, 2023

利用视觉检测模型增强多模态大型语言模型：实证研究

通过融合先进的目标检测和光学字符识别模型，我们在多模态大型语言模型的基础上进行了实证研究，以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法，该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验，我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能，而且保持了其原始优势。结果表明，改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型，在规范化的平均得分上取得了最高 12.99% 的提升，标志着多模态理解领域的重大进展。通过发布我们的代码，我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。

Jan, 2024

基于文本和图像的多模态深度网络文档分类

本文介绍了一种多模态神经网络，结合了 OCR 提取的文本和图像信息，来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。

Jul, 2019

基于少量数据学习的表面缺陷检测人机知识混合增强方法

本文提出了一种人机知识混合增强方法，用于从头开始积累少量数据，并将其作为先验知识提供给模型进行少数据学习，进而在工业缺陷检测中取得了可行性和有效性的进展。

Apr, 2023

AON：面向任意方向的文本识别

本文介绍了一种用于识别自然图像中非规则排列文字的新方法，称为任意方向网络（AON），它采用深度学习技术和注意力解码器来生成字符序列，并在多个数据集上取得了最新的性能。

Nov, 2017

安全应用中 X 射线图像非法物品检测

本文提出了一种改进的基于深度神经网络的自动化 X 射线图像检测方法，通过使用更高效的框和修改默认 NMS 算法实现更准确的物体检测，突显了大数据分析在提高公共安全方面的潜力。

May, 2023