OCR 全能者:将多模态引入基于图像的缺陷检测系统
VizInspect pro 是基于 Leo 边缘 AI 平台,采用基于深度学习的图像分析技术,具有高速和准确性、无需机器学习或视觉专业知识配置检测方案等特点,是一种专门用于工厂自动化的通用计算机视觉检测方案。本文展示了该解决方案和平台如何解决模型开发、部署、多重推理和可视化等问题,并已通过多个外部企业客户进行了验证。
May, 2022
我们提出了一种端到端多模态深度学习算法,用于检测利用遥感图像和多语义参考信息的城市感兴趣区域围栏多边形,通过融合动态人类流动性和物流地址信息的级联模块来评估其时效性。实验结果表明,我们的算法明显优于两种现有方法。
Jan, 2024
本文提出了一种基于深度学习的两阶段故障诊断框架,第一阶段通过数据扩增增强图像处理性能,第二阶段则使用改进后的深度学习架构进行对象检测,在两个多类别数据集上的实验结果表明,该框架优于其他解决方案。
May, 2021
提出了 AI 推理器,它从图像中提取缺陷的形态特征(DefChars),并利用决策树对 DefChar 值进行推理,随后导出可视化和文字解释以提供对基于掩膜的缺陷检测和分类模型输出的洞察,并为增强数据预处理和整体模型性能提供有效的缓解策略。通过对包含缺陷的 366 张图像的 IE Mask R-CNN 模型输出进行解释,测试了 AI 推理器的有效性,结果展示了它在解释 IE Mask R-CNN 模型的预测方面的有效性。总体而言,提出的 AI 推理器为需要缺陷分析的工业应用中改善 AI 模型的性能提供了解决方案。
Jul, 2023
这篇论文探讨了工业多模态异常检测任务,利用点云和 RGB 图像来定位异常。我们介绍了一种新颖且快速的框架,它学习将一个模态中的特征映射到另一个模态的正常样本上。在测试时,通过定位观察到的特征和映射特征之间的不一致性来检测异常。大量实验证明,我们的方法在 MVTec 3D-AD 数据集的标准和少样本设置中实现了最先进的检测和分割性能,同时实现了更快的推理速度和更低的内存占用,优于先前的多模态异常检测方法。此外,我们提出一种层裁剪技术,在性能上略有损失的同时提高了内存和时间效率。
Dec, 2023
通过融合先进的目标检测和光学字符识别模型,我们在多模态大型语言模型的基础上进行了实证研究,以改善对细粒度图像理解的能力并减少回应中的虚构现象。我们的研究探讨了融合检测信息的基于嵌入的方法,该方法对原始多模态大型语言模型的影响以及检测模型的互换性。通过与 LLaVA-1.5、DINO 和 PaddleOCRv2 等模型进行系统实验,我们发现我们的方法不仅在特定的视觉任务中提高了多模态大型语言模型的性能,而且保持了其原始优势。结果表明,改进后的多模态大型语言模型在 10 个基准测试中有 9 个超过了先进模型,在规范化的平均得分上取得了最高 12.99% 的提升,标志着多模态理解领域的重大进展。通过发布我们的代码,我们希望进一步探索多模态大型语言模型在细粒度多模态对话能力方面的应用。
Jan, 2024
本文介绍了一种多模态神经网络,结合了 OCR 提取的文本和图像信息,来对文献图像进行分类。该方法在 Tobacco3482 和 RVL-CDIP 数据集上的准确率提高了 3%。
Jul, 2019
本文提出了一种人机知识混合增强方法,用于从头开始积累少量数据,并将其作为先验知识提供给模型进行少数据学习,进而在工业缺陷检测中取得了可行性和有效性的进展。
Apr, 2023
本文介绍了一种用于识别自然图像中非规则排列文字的新方法,称为任意方向网络(AON),它采用深度学习技术和注意力解码器来生成字符序列,并在多个数据集上取得了最新的性能。
Nov, 2017
本文提出了一种改进的基于深度神经网络的自动化 X 射线图像检测方法,通过使用更高效的框和修改默认 NMS 算法实现更准确的物体检测,突显了大数据分析在提高公共安全方面的潜力。
May, 2023