BriefGPT.xyz
Mar, 2025
通过潜在 CLIP 控制潜在扩散
Controlling Latent Diffusion Using Latent CLIP
HTML
PDF
Jason Becker, Chris Wendler, Peter Baylies, Robert West, Christian Wressnegger
TL;DR
本研究解决了潜在扩散模型在处理过程中仍需将潜在图像解码为像素空间的低效率问题。我们提出了直接在潜在空间中操作的 Latent-CLIP 模型,并证明其在图像分类上的表现与现有大型 CLIP 模型相当,同时降低了整个处理管道的成本。最重要的是,Latent-CLIP 能有效引导生成内容以避免不当图像的产生,展示了其应用潜力。
Abstract
Instead of performing text-conditioned denoising in the image domain,
Latent Diffusion
models (LDMs) operate in latent space of a
Variational Autoencoder
(VAE), enabling more efficient processing at reduced compu
→