CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练
提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型,通过引入图像数据进行训练,结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明,CgT-GAN 在各项指标上明显优于现有的最先进方法。
Aug, 2023
使用多模态编码器指导图像生成的新方法,避免了使用昂贵和经过特殊训练的模型,能够从复杂的语义文本提示中生成高质量的图像,并且能够比 DALL-E [38],GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。
Apr, 2022
本文提出了一种基于深度神经网络的文本到图像生成算法,使用预训练的 CLIP 模型和变分推断的方式,优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。
Mar, 2023
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内外的情况下,生成的图像也非常逼真。
Mar, 2024
使用大规模对比性语言 - 图像预训练(Contrastive-Language-Image-Pre-training,CLIP)模型极具语义能力的特点,实现了使用文本提示来训练生成模型,无需看到图像的 “盲目” 图像生成方法。通过少量的训练,我们的方法不断适应多个具有不同样式和形状特征的领域,并维持对未来任务有吸引力的潜在空间属性。
Aug, 2021
通过提出 ReCLIP 方法,第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法,该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响,在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。
Aug, 2023
本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法,采用图像特征生成文本特征,实现了对文本数据的无缝融合。实验结果表明,该方法在标准文本到图像生成任务中取得了最好的表现,并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外,我们的方法可以应用于微调预训练模型,从而节省文本到图像生成模型的培训时间和成本。
Nov, 2021