Nov, 2023

HGCLIP:基于图表示的层次理解视觉 - 语言模型的探索

TL;DR我们提出了一种将 CLIP 与图表示学习相结合以更深入地利用分层类结构的新框架(HGCLIP),通过将类层次结构构建成一个图,其中其节点代表每个类别的文本或图像特征,通过图编码器,文本特征结合了分层结构信息,而图像特征通过注意机制强调了从原型派生的类别感知特征,我们的方法在通用和细粒度视觉识别基准上均取得了显著的改进。