May, 2023

基于词性的视觉语言模型子空间

TL;DR本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化,从而获得解耦的图像和模态表示的方法,并证明其在图像合成和零样本分类方面的有效性。