Oct, 2023

LICO: 带有语言 - 图像一致性的可解释模型

TL;DR通过将可学习的语言提示与相应的视觉特征相关联,以粗到精的方式建立了一种用于可解释图像分类的语言图像一致性模型(LICO),通过最小化图像和语言特征分布之间的距离,建立了粗略的全球流形结构对齐,然后通过应用最优传输(OT)理论将局部特征图与类别特定的提示分配,从而实现细粒度的显著性图。广泛的实验结果表明,LICO 相对于现有的解释方法(如 Grad-CAM)在生成更可解释的注意力图方面取得了显著进展。值得注意的是,在推理期间,LICO 改进了现有模型的分类性能,并未引入任何计算开销。