Apr, 2024

利用 VLM-LLM 特征进行渐进对齐以增强 ASE 数据集中的缺陷分类

TL;DR我们提出了 ASE 数据集,其中包含丰富的图像数据描述,用于缺陷分类,但缺陷特征难以直接学习。我们通过使用专门的视觉语言模型(VLM)和大型语言模型(LLM)的惊人零样本能力,为差异分类问题提供了解决方案。我们通过在图像中激活额外的多模态特征以提高性能,并设计了逐步特征对齐(PFA)块来改善少样本情况下的对齐困难。最后,我们提出的跨模态注意力融合(CMAF)模块可以有效地融合不同的模态特征。实验证明了我们的方法在 ASE 数据集上相对于其他缺陷分类方法的有效性。