CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

MMAug, 2023

CgT-GAN：基于 CLIP 引导的文本 GAN 用于图像字幕生成

CgT-GAN: CLIP-guided Text GAN for Image Captioning

Jiarui Yu, Haoran Li, Yanbin Hao, Bin Zhu, Tong Xu...

TL;DR提出了一个 CLIP 引导的文本生成对抗网络 (CgT-GAN) 模型，通过引入图像数据进行训练，结合语义指导奖励 (CLIP-based reward) 和生成文本的自然度奖励来生成与外部语料库相似的文字。在实验证明，CgT-GAN 在各项指标上明显优于现有的最先进方法。

Abstract

The large-scale visual-language pre-trained model, Contrastive Language-Image Pre-training (clip), has significantly improved image captioning for scenarios without human-annotated image-caption pairs. Recent adv

clip image captioning clip-guided text gan semantic guidance state-of-the-art methods

发现论文，激发创造

CLIP-GEN: 使用 CLIP 进行无需语言条件的文本 - 图像生成训练

本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像，只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识，并使用自编码器和自回归变换器将图像转换为文本标记，并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法，而且不会影响文本与图像的匹配。

Mar, 2022

TextCLIP：无对抗训练的文本指导人脸图像生成与操作

提出了 TextCLIP，这是一个统一的框架，用于无对抗训练的文本引导的图像生成和操作，通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合，能够生成高达 1024×1024 分辨率的图像，并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。

Sep, 2023

StyleCLIP: 基于文本的 StyleGAN 图像操作

本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型，开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预，通过文本提示即可对输入的潜在向量进行修改，并引入了潜在映射器，提高了文本驱动的操作效率。实验表明该方法非常有效。

Mar, 2021

使用 CLIP 奖励的细粒度图像字幕生成

本研究提出使用基于大规模图像 - 文本对训练的多模态编码器 CLIP 计算多模态相似度并将其用作奖励函数来产生更加具有描述性和独特性的标题，同时证明使用 CLIP 奖励相较于传统奖励模板对于改善生成模型具有优势，并介绍了一种简单的 CLIP 文本编码器微调策略以提高语法。

May, 2022

使用 CLIP 的半监督图像字幕生成

本文提出了一种利用 CLIP 模型进行半监督图像标注的方法，包括图像编码器、映射网络和语言模型，通过对比生成的标题和实际标题，并使用未标记的图像进行二次训练，得到了与完整数据集训练的业界最先进模型相比可比的性能，且标题更加独特、信息量更大，并且符合人类的偏好。

Jun, 2023

CLIP 引导下的 StyleGAN 反演方法用于文本驱动的真实图像编辑

本文提出了一种新的基于文本的图像编辑方法 CLIPInverter，通过在预训练的 GAN 反演网络中集成轻量级文本适配器层，以目标描述的 CLIP 嵌入为条件进行初始反演步骤的条件化，通过使用 CLIP 引导的细化步骤来对结果残留潜在编码进行更正，从而实现了高效稳定地进行多属性更改，因此在各个领域，包括人类脸部，猫和鸟类方面，我们的方法在操作精度和真实度方面均表现优异。

Jul, 2023

GALIP: 文本到图像生成的生成对抗 CLIPs

使用 CLIP 模型作为生成对抗网络中的鉴别器和生成器，我们提出 Generative Adversarial CLIPs（GALIP），以实现高质量、高效、快速且可控的文本到图像合成，同时减少训练数据和可学习参数。

Jan, 2023

RATLIP: 基于递归仿射变换的生成对抗网络 CLIP 文本到图像合成

通过使用条件仿射变换以及在循环神经网络之间引入随机注意力机制，结合强大的预训练模型 Clip，本研究提出了一种高质量逼真图像的生成模型，有效提升了图像与文本描述之间的一致性和综合图像的丰富度。

May, 2024

StyleGAN-NADA：基于 CLIP 引导的图像生成器域自适应

使用大规模对比性语言 - 图像预训练（Contrastive-Language-Image-Pre-training，CLIP）模型极具语义能力的特点，实现了使用文本提示来训练生成模型，无需看到图像的 “盲目” 图像生成方法。通过少量的训练，我们的方法不断适应多个具有不同样式和形状特征的领域，并维持对未来任务有吸引力的潜在空间属性。

Aug, 2021

基于文本数据的图像标题生成与交互提示

TIPCap 是一种基于文本数据的交互提示的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的图像标题生成方法，并在 MS-COCO 和 Flickr30K 等常用数据集上达到了最新的最优性能。

Mar, 2024