Apr, 2023

CLIP 手术技术用于开放式任务的解释性增强

TL;DRCLIP(Contrastive Language-Image Pre-training)是一种强大的多模态视觉模型,该论文提出了一种 CLIP Surgery 方法,可以在不降低性能的情况下提升 CLIP 的解释性和性能,并在开放词汇任务中获得了显着的提高,如 NUS-Wide 多标签识别上得到了 4.41% 的平均精度提升,Cityscapes 开放词汇语义分割任务上的 mIoU 也超过了现有方法的 8.74%。