ICLRMar, 2023

HiCLIP: 基于分层感知注意力的对比语言 - 图像预训练

TL;DR本文提出了用层级感知的注意力机制改进 CLIP 模型,以更好的捕捉图像和文本的高层语义,并在视觉识别和与视觉相关的下游任务中获得良好的结果。