Jan, 2024

基于 Top-k 邻居的图像到文本提示的 CLIP 模型

TL;DR以生成模型为基础,提出了一种用于图像生成提示的低成本方法,在无需大量标注数据的情况下生成文本提示,并将方法划分为在线和离线两个阶段。所提出的系统由离线任务和在线任务两个主要部分组成,具有最高的度量值 0.612,比 Clip、Clip + KNN(前 10)分别高出 0.013、0.055、0.011。