利用 VLM-LLM 特征进行渐进对齐以增强 ASE 数据集中的缺陷分类

Apr, 2024

利用 VLM-LLM 特征进行渐进对齐以增强 ASE 数据集中的缺陷分类

Progressive Alignment with VLM-LLM Feature to Augment Defect Classification for the ASE Dataset

Chih-Chung Hsu, Chia-Ming Lee, Chun-Hung Sun, Kuang-Ming Wu

TL;DR我们提出了 ASE 数据集，其中包含丰富的图像数据描述，用于缺陷分类，但缺陷特征难以直接学习。我们通过使用专门的视觉语言模型（VLM）和大型语言模型（LLM）的惊人零样本能力，为差异分类问题提供了解决方案。我们通过在图像中激活额外的多模态特征以提高性能，并设计了逐步特征对齐（PFA）块来改善少样本情况下的对齐困难。最后，我们提出的跨模态注意力融合（CMAF）模块可以有效地融合不同的模态特征。实验证明了我们的方法在 ASE 数据集上相对于其他缺陷分类方法的有效性。

Abstract

Traditional defect classification approaches are facing with two barriers. (1) Insufficient training data and unstable data quality. Collecting sufficient defective sample is expensive and time-costing, consequen

defect classification training data visual modality vision-language model ase dataset

发现论文，激发创造

LLM 在零样本异常检测中的能力揭示

本文介绍了一种训练无关的方法 ALFA，旨在解决零射击视觉异常检测的挑战，包括生成信息性的异常提示和精确的异常定位，通过利用大型语言模型的能力和全局到局部的图像 - 文本对齐。与最先进的零射击视觉异常检测方法相比，在 MVTec AD 和 VisA 数据集上，ALFA 取得了显著的 12.1% 和 8.9% 的性能改进。

Apr, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

具对比性本地化的强韧缺陷检测

该论文提出一种无需建模过程，通过生成对抗网络（GAN）、新提出的缩放模式损失和动态遮蔽循环次要网络等三方面联合作用直接检测缺陷模式的一阶段框架，在 MVTec AD 数据集的质地类别中表现出比现有技术更高的 F1 分数和更好的普适性。

Jun, 2023

晶片地圖缺陷模式半監督分類使用潛在向量表示

这篇论文提出了一种利用预训练的 VAE 模型获取晶圆图故障分布信息，并结合原始图像集进行半监督模型训练的方法。通过师生网络的迭代学习，该模型在 WM-811K 晶圆数据集上验证得到了卓越的分类准确性和检测性能，实现了对工业应用的要求，并在性能上有显著的提升。

Oct, 2023

VLM-PL：基于视觉 - 语言模型的高级伪标签方法的类别增量对象检测

在 Class Incremental Object Detection（CIOD）领域，解决模型如何像人类一样持续学习的问题是一个重大挑战。为了克服传统的伪标签方法在多场景增量学习中遗忘过去知识的问题，该研究介绍了一种名为 Vision-Language Model assisted Pseudo-Labeling（VLM-PL）的新方法。通过将图像和文本特征组合设计的提示模板生成自定义查询，借助视觉 - 语言模型（VLM），VLM-PL 技术能够验证伪标签的正确性，而无需额外的模型训练。通过将精细化的伪标签和真实标签整合，并结合新旧知识，VLM-PL 在 Pascal VOC 和 MS COCO 数据集上进行了广泛实验，不仅在多场景问题上表现出色，还在双场景问题上取得了最先进的结果。

Mar, 2024

CVPR2024 基础 Few-Shot 目标检测挑战的解决方案

本报告介绍了一种增强的方法来解决基础性少样本物体检测任务，利用视觉语言模型 (VLM) 进行物体检测。为解决 VLM 可能遇到的与目标概念不一致的问题，本研究提出了 VLM + 框架，把多模态大型语言模型 (MM-LLM) 集成到 VLM 中。通过 MM-LLM 生成每个类别的一系列参考表达式，根据 VLM 的预测和给定的注释，选取与每个类别最大 IoU 匹配的最佳参考表达式，并生成伪标签来细调 VLM。该方法在最终测试中达到了 32.56 mAP。

Jun, 2024

基于少量数据学习的表面缺陷检测人机知识混合增强方法

本文提出了一种人机知识混合增强方法，用于从头开始积累少量数据，并将其作为先验知识提供给模型进行少数据学习，进而在工业缺陷检测中取得了可行性和有效性的进展。

Apr, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

通过缺陷感知特征操作实现少样本缺陷图像生成

提出一种用于数据增强的缺陷图像生成方法，包含两个训练阶段，第一个阶段使用无缺陷图像训练数据高效的 StyleGAN2 模型，第二个阶段添加缺陷模块，通过有限的缺陷图像训练以实现生成逼真且多样化的缺陷图像的目标。

Mar, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022