文本生成图像的移位扩散

CVPRNov, 2022

Shifted Diffusion for Text-to-image Generation

Yufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen...

TL;DRCorgi 是一种新的文本图像生成方法，基于改进的扩散模型，可以有效地将输入文本转化为图像嵌入向量，与 DALL-E 2 相比，Corgi 在效率和效果上均表现更好，同时还支持半监督无语言训练。

Abstract

We present Corgi, a novel method for text-to-image generation. Corgi is based on our proposed shifted diffusion model, which achieves better imag

text-to-image generation diffusion model clip model semi-supervised learning image embedding

发现论文，激发创造

CogView3：通过中继扩散实现更精细和更快速的文本到图像生成

CogView3 是一种基于级联框架的文本到图像生成模型，通过实现中继扩散和超分辨率技术来提升性能，在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%，同时只需约 1/2 的推理时间。

Mar, 2024

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

具有深度语言理解的照片级文本到图像扩散模型

提出了一种 Imagin 技术，在理解文本方面，利用大型 transformer 语言模型，以高逼真度和深度的语言理解建立了文本到图像的扩散模型，实现了高保真的图像生成。通过一个全面的基准测试 DrawBench，该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。

May, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

ERNIE-ViLG 2.0: 使用知识增强的去噪成分混合模型改进文本到图像扩散模型

本文提出了 ERNIE-ViLG 2.0，一种大规模中文文本到图像扩散模型，通过将场景中的关键元素的精细文本和视觉知识纳入模型，并利用不同的去噪专家在不同的去噪阶段，逐步提高生成图像的质量，并在 MS-COCO 上实现了新的最先进的零样本 FID 得分，而且在图像保真度和图像 - 文本对齐方面显着优于最近的模型，同时得到了 ViLG-300 双语提示集的人类评估。

Oct, 2022

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

文本到图像扩散模型是零样本分类器

通过使用扩散模型的去噪能力作为代理，将零样本分类器应用于 Imagen，探究其知识方面并与 CLIP 进行比较，结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当，同时在形状 / 纹理偏差测试方面取得了最先进的结果，能够成功地执行属性绑定，而 CLIP 则不能。因此，我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。

Mar, 2023

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

EmoGen: 基于文本到图像扩散模型的情感图像内容生成

我们提出了一种能够根据情感类别生成语义清晰、情感忠实的图像的新任务，具有显著优于现有文本到图像扩散模型的定量和定性表现，并且能够帮助情感理解和激发情感艺术设计。

Jan, 2024