Jun, 2024

跨模型理解视觉概念

TL;DR大型多模态模型通过仅微调单个词嵌入就能生成、检测和分类新的视觉概念,但我们发现模型学习相似的词语表示同一概念的能力是模型特定且不可转移的。我们对三种先进模型在文本到图像生成、开放集目标检测和零样本分类领域进行了大规模分析,发现新的词嵌入是模型特定且不可转移的。我们在四个标准数据集上针对 40 个不同的视觉概念训练了 4800 个新的嵌入,发现在一个 epsilon 球内的任何先前嵌入的扰动都能生成、检测和分类任意的概念。当这些新的词嵌入被插入新模型时,针对原始模型的微调将失效。我们展示了流行的软提示微调方法在视觉概念学习任务中发现这些扰动解,而视觉概念的嵌入是不可转移的。可复现我们工作的代码可在此 https 网址找到。