CLIPVG: 可微分向量图形辅助的文本引导图像操作
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力的结合,能够生成高达 1024×1024 分辨率的图像,并在 Multi-modal CelebA-HQ 数据集上取得了优于现有最先进方法的结果。
Sep, 2023
提出一种名为 VT-CLIP 的方法来增强 CLIP 模型,它通过可视化引导文本,使文本的特征更适应图片,在多分类任务中表现出很高的效果。
Dec, 2021
该研究提出了一种名为 DiffusionCLIP 的新方法,该方法使用扩散模型进行文本驱动的图像操作,比现有基线表现更为优异,并允许简便的多属性操作。
Oct, 2021
本文提出了一种基于 CLIP-VG 的自我学习课程适应方法,通过利用伪语言标签来解决 VG 问题,以达到隐式知识利用和去噪。研究结果表明,该方法在单源和多源情况下都远优于现有的最先进的无监督 VG 方法 Pseudo-Q,甚至优于现有的弱监督方法。
May, 2023
本文探讨了如何利用 Contrastive Language-Image Pre-training (CLIP) 模型,开发基于文本的 StyleGAN 图像操作界面。新方法不需要人工干预,通过文本提示即可对输入的潜在向量进行修改,并引入了潜在映射器,提高了文本驱动的操作效率。实验表明该方法非常有效。
Mar, 2021
本文提出了一种自监督学习策略 CLIP-GEN 用于通用的文本生成图像,只需要通用领域的未标记图像。我们使用来自 CLIP 的语言 - 图像先验知识,并使用自编码器和自回归变换器将图像转换为文本标记,并基于这里从文本编码器中提取的文本嵌入生成连贯的图像标记。定量和定性评估表明本方法在图像质量方面明显优于基于优化的文本到图像方法,而且不会影响文本与图像的匹配。
Mar, 2022
我们提出了一种使用 SVM 在 StyleGAN 和 CLIP 空间自适应构建编辑方向的方法,将大规模图像语料库中与文本指令相似的图像通过 CLIP 相似性检索,用 SVM 训练正负图像分类器将编辑方向表示为 CLIP 空间中的法向量,并验证其性能与 StyleCLIP 基准一致,而且不会增加计算时间。
Apr, 2023
使用多模态编码器指导图像生成的新方法,避免了使用昂贵和经过特殊训练的模型,能够从复杂的语义文本提示中生成高质量的图像,并且能够比 DALL-E [38],GLIDE [33] 和 Open-Edit [24] 等先前的不灵活方法产生更高的视觉质量。
Apr, 2022
本文提出了利用预训练的 CLIP 模型来实现多模态文本 - 图像表示和强大的图像生成能力的 CLIP-VQDiffusion 模型,在 FFHQ 数据集上,该模型的 Clipscore 得分超过了之前最先进的方法 4.4%,并且即使在分布内外的情况下,生成的图像也非常逼真。
Mar, 2024
通过使用不同的图像参数化方法,利用生成模型和巧妙设计的蒸馏目标,我们提出了一种轻量级而高效的方法 SDS-CLIP,来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。
Jul, 2023