CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

Mar, 2022

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

CLIP-GEN: Language-Free Training of a Text-to-Image Generator with CLIP

Zihao Wang, Wei Liu, Qian He, Xinglong Wu, Zili Yi

TL;DR本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像，只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识，并使用自编码器和自回归变换器将图像转换为文本标记，并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法，而且不会影响文本与图像的匹配。

Abstract

Training a text-to-image generator in the general domain (e.g., Dall.e, CogView) requires huge amounts of paired text-image data, which is too expensive to collect. In this paper, we propose a self-supervised scheme named as clip-gen for general →

text-to-image generation clip-gen self-supervised learning autoregressive transformer unlabeled image dataset

发现论文，激发创造

CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型，通过引入图像数据进行训练，结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明，CgT-GAN 在各项指标上明显优于现有的最先进方法。

Aug, 2023

使用自然语言引导的开放域图像生成和编辑

使用多模态编码器指导图像生成的新方法，避免了使用昂贵和经过特殊训练的模型，能够从复杂的语义文本提示中生成高质量的图像，并且能够比 DALL-E [38]，GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。

Apr, 2022

无监督文本到图像生成的变分分布学习

本文提出了一种基于深度神经网络的文本到图像生成算法，使用预训练的 CLIP 模型和变分推断的方式，优化算法并取得了在无监督和半监督文本图像生成任务下 beat state-of-the-art 的结果。

Mar, 2023

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

CLIP-VQDiffusion: 基于 CLIP 和向量量化扩散模型的无语言训练文本生成图像

本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型，在 FFHQ 数据集上，该模型的 Clipscore 得分超过了之前最先进的方法 4.4%，并且即使在分布内外的情况下，生成的图像也非常逼真。

Mar, 2024

StyleGAN-NADA：基于 CLIP 引导的图像生成器域自适应

使用大规模对比性语言 - 图像预训练（Contrastive-Language-Image-Pre-training，CLIP）模型极具语义能力的特点，实现了使用文本提示来训练生成模型，无需看到图像的 “盲目” 图像生成方法。通过少量的训练，我们的方法不断适应多个具有不同样式和形状特征的领域，并维持对未来任务有吸引力的潜在空间属性。

Aug, 2021

ReCLIP：使用源域自适应提炼对比语言图像预训练

通过提出 ReCLIP 方法，第一个无需源数据或目标标记数据的视觉 - 语言模型领域自适应方法，该方法使用伪标签进行交叉模态自训练以减小领域间差异和错位对模型性能的影响，在 22 个图像分类基准测试中将 CLIP 的平均错误率从 30.17% 降低到 25.06%。

Aug, 2023

LAFITE：面向文本图像生成的语言无关训练

本文提出了一种基于 CLIP 模型的无语言数据训练文本到图像生成模型的方法，采用图像特征生成文本特征，实现了对文本数据的无缝融合。实验结果表明，该方法在标准文本到图像生成任务中取得了最好的表现，并且优于大多数使用完整图像 - 文本对进行训练的现有模型。此外，我们的方法可以应用于微调预训练模型，从而节省文本到图像生成模型的培训时间和成本。

Nov, 2021