CLIP-CLOP: CLIP 引导的拼贴和拼贴照片

May, 2022

CLIP-CLOP: CLIP 引导的拼贴和拼贴照片

CLIP-CLOP: CLIP-Guided Collage and Photomontage

Piotr Mirowski, Dylan Banarse, Mateusz Malinowski, Simon Osindero, Chrisantha Fernando

TL;DR通过艺术家所提供图像拼贴和提示信息，设计了一个基于梯度的生成算法来生成高分辨率的图像拼贴，并提供了一个开源工具供创作者使用。

Abstract

The unabated mystique of large-scale neural networks, such as the clip dual image-and-text encoder, popularized automatically generated art. Increasingly more sophisticated generators enhanced the artworks' reali

neural networks clip art generation gradient-based generator collages

发现论文，激发创造

通过联合创作绘画和交互解释 CLIP

本文分析了一个视觉档案，其中互动机器人艺术装置根据观众讲述的梦境生成图像，通过 CLIPdraw 深度学习模型解释和转换。结果表明四个概念分组描述和解释了 CLIP 生成的结果：清晰的概念，文本转图像，不确定和混乱以及翻译问题。最终，文章认为所提出的分组支持对神经模型的更好理解。

Jun, 2023

GALIP: 文本到图像生成的生成对抗 CLIPs

使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器，我们提出 Generative Adversarial CLIPs（GALIP），以实现高质量、高效、快速且可控的文本到图像合成，同时减少训练数据和可学习参数。

Jan, 2023

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

使用 CLIP 潜变量的分层文本条件图像生成

提出一个两阶段模型，先用 prior 生成 CLIP 图像嵌入，再由 decoder 在图像嵌入的条件下生成图像。实验表明该模型可以提高图像的多样性，并在完美保留语义和风格前提下变化非必要的细节。利用扩散模型作为 decoder, 同时使用自回归和扩散模型作为 prior，发现后者更加高效且产生的样本更优。

Apr, 2022

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

使用 CLIP 引导的 StyleGAN 实现即时目标检测

利用现代生成模型和多模态学习的组合潜能，本研究提出了一种完全自动化的框架，可对卫星图像上的目标进行检测。我们利用 CLIP（Contrastive Language-Image Pre-Training）的能力来将图像特征与文本描述相关联，并识别生成器网络中的神经元以构建即时目标检测器。

Oct, 2022

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像，只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识，并使用自编码器和自回归变换器将图像转换为文本标记，并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法，而且不会影响文本与图像的匹配。

Mar, 2022

生成艺术家：一种语义感知和可控的 CLIP 样式转换器

本文介绍了一种基于预训练的 CLIP 文本 - 图像嵌入模型和 FCN 语义分割网络的图像风格转移框架，其中 Generative Artisan 解决了 CLIPstyler 的失败情况，并在肖像和包含人物的实景中获得了比 CLIPstyler 更好的定量和定性结果，使得商业场景如修图图形软件成为可能。

Jul, 2022

使用自然语言引导的开放域图像生成和编辑

使用多模态编码器指导图像生成的新方法，避免了使用昂贵和经过特殊训练的模型，能够从复杂的语义文本提示中生成高质量的图像，并且能够比 DALL-E [38]，GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。

Apr, 2022