CLIP-CLOP: CLIP 引导的拼贴和拼贴照片
本文分析了一个视觉档案,其中互动机器人艺术装置根据观众讲述的梦境生成图像,通过 CLIPdraw 深度学习模型解释和转换。结果表明四个概念分组描述和解释了 CLIP 生成的结果:清晰的概念,文本转图像,不确定和混乱以及翻译问题。最终,文章认为所提出的分组支持对神经模型的更好理解。
Jun, 2023
使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器,我们提出 Generative Adversarial CLIPs(GALIP),以实现高质量、高效、快速且可控的文本到图像合成,同时减少训练数据和可学习参数。
Jan, 2023
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
本文提出了一种利用 CLIP 模型进行半监督图像标注的方法,包括图像编码器、映射网络和语言模型,通过对比生成的标题和实际标题,并使用未标记的图像进行二次训练,得到了与完整数据集训练的业界最先进模型相比可比的性能,且标题更加独特、信息量更大,并且符合人类的偏好。
Jun, 2023
提出一个两阶段模型,先用 prior 生成 CLIP 图像嵌入,再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性,并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior,发现后者更加高效且产生的样本更优。
Apr, 2022
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
利用现代生成模型和多模态学习的组合潜能,本研究提出了一种完全自动化的框架,可对卫星图像上的目标进行检测。我们利用 CLIP(Contrastive Language-Image Pre-Training)的能力来将图像特征与文本描述相关联,并识别生成器网络中的神经元以构建即时目标检测器。
Oct, 2022
本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像,只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识,并使用自编码器和自回归变换器将图像转换为文本标记,并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法,而且不会影响文本与图像的匹配。
Mar, 2022
本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架,其中 Generative Artisan 解决了 CLIPstyler 的失败情况,并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果, 使得商业场景如修图图形软件成为可能。
Jul, 2022
使用多模态编码器指导图像生成的新方法,避免了使用昂贵和经过特殊训练的模型,能够从复杂的语义文本提示中生成高质量的图像,并且能够比 DALL-E [38],GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。
Apr, 2022