May, 2023
基于词性的视觉语言模型子空间
Parts of Speech-Grounded Subspaces in Vision-Language Models
James Oldfield, Christos Tzelepis, Yannis Panagakis, Mihalis A. Nicolaou, Ioannis Patras
TL;DR本文提出了一种通过语法组件分解学习 CLIP 模型中视觉 - 语言联合空间不同视觉模态的基本变化,从而获得解耦的图像和模态表示的方法,并证明其在图像合成和零样本分类方面的有效性。