Jun, 2024
跨模型理解视觉概念
Understanding Visual Concepts Across Models
TL;DR大型多模态模型通过仅微调单个词嵌入就能生成、检测和分类新的视觉概念,但我们发现模型学习相似的词语表示同一概念的能力是模型特定且不可转移的。我们对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析,发现新的词嵌入是模型特定且不可转移的。我们在四个标准数据集上针对40个不同的视觉概念训练了4800个新的嵌入,发现在一个epsilon球内的任何先前嵌入的扰动都能生成、检测和分类任意的概念。当这些新的词嵌入被插入新模型时,针对原始模型的微调将失效。我们展示了流行的软提示微调方法在视觉概念学习任务中发现这些扰动解,而视觉概念的嵌入是不可转移的。可复现我们工作的代码可在此https网址找到。