BriefGPT.xyz
Ask
alpha
关键词
multimodal text-image representations
搜索结果 - 1
CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像
本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内
→
PDF
3 months ago
Prev
Next