Sep, 2022

探索Contrastive语言-图像预训练的视觉可解释性

TL;DR本文提出了一种名为ECLIP的改进版Contrastive Language-Image Pre-training模型,通过Masked Max Pooling方法解决了原模型存在的semantic shift问题,在目标检测和可解释性等方面有着较大的提升。