Sep, 2022

探索 Contrastive 语言 - 图像预训练的视觉可解释性

TL;DR本文提出了一种名为 ECLIP 的改进版 Contrastive Language-Image Pre-training 模型,通过 Masked Max Pooling 方法解决了原模型存在的 semantic shift 问题,在目标检测和可解释性等方面有着较大的提升。