Apr, 2024

ECOR:面向目标识别的可解释 CLIP

TL;DR在本研究中,我们通过给对象识别任务中的大视觉语言模型(VLMs)提供可解释性的数理定义(基于类别和原因的联合概率分布),以一种可解释的方式对 CLIP 进行微调,从而在解释性分类方面展现了最先进的性能,尤其在零样本设置下表现出了它的适应性,使解释性的对象识别得到了改善,增强了不同应用中的信任。