May, 2023

Structure-CLIP: 使用结构信息增强多模态语言表示

TL;DR本文介绍一种结构感知的视觉 - 语言预训练模型 ——Structure-CLIP,它利用场景图实现对细粒度语义信息的关注,结合结构知识来提高多模态语言表示的表示能力,并在不同的下游任务中得到了最先进的表现。