Jun, 2024

pOps: 基于照片灵感的扩散算子

TL;DR借助文本引导的图像生成,通过 IP-Adapter 等方法利用 CLIP 图像嵌入空间从事面向视觉的任务,但线性操作在此空间内的具体含义在不同图像之间可能变化不可预测,为此,我们引入了 pOps 框架,在 CLIP 图像嵌入上直接训练特定的语义操作符,每个 pOps 操作符都基于预训练的扩散先验模型构建,pOps 不仅提高了我们学习语义操作的能力,还允许我们在需要时直接使用文本 CLIP 损失作为额外的监督,我们展示了 pOps 可以用于学习多种具有不同语义含义的受照片启发的操作符,突显了我们提出方法的语义多样性和潜力。