Kandinsky：带有图像先验和潜在扩散的改进文本到图像合成

Oct, 2023

Kandinsky：带有图像先验和潜在扩散的改进文本到图像合成

Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov...

TL;DRKandinsky1 是一种使用潜在扩散架构的文本到图像生成模型，与图像先验模型的原则结合，并通过修改的 MoVQ 实现作为图像自编码器组件，支持多样化的生成模式，有 8.03 的 FID 得分和可测量的图像生成质量。

Abstract

text-to-image generation is a significant domain in modern computer vision and has achieved substantial improvements through the evolution of generative architectures. Among these, there are diffusion-based models that have demonstrated essential quality enhancements. These models are

text-to-image generation latent diffusion architecture image prior model movq implementation generative modes

发现论文，激发创造

康定斯基 3.0 技术报告

Kandinsky 3.0 是一种基于潜在扩散的大规模文本到图像生成模型，通过两倍更大的 U-Net 主干网、十倍更大的文本编码器和去除扩散映射等关键组件的改进，取得了与其他模型相比更高质量和真实感的图像生成效果。

Dec, 2023

使用潜在扩散模型进行高保真度的图像合成引导

本文提出了一种新的引导图像合成框架，该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时，本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系，用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。

Nov, 2022

文本到图像的向量量化扩散模型

本论文提出了基于矢量量化扩散模型的文本到图像生成方法，在扩散条件变量程序模型的潜在空间中建模基于矢量量化变分自编码器的方法，消除了现有方法中的单向偏差，并允许我们结合掩模和替换扩散策略以避免误差积累，其结果在生成复杂场景的图像方面得到了显着的改进。

Nov, 2021

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

Kaleido 扩散：通过自回归潜在建模改进条件扩散模型

Kaleido 是一种改进图像生成多样性的方法，它利用自回归潜变量先验来增加样本的多样性，通过整合自回归语言模型编码原始说明并生成潜变量，以作为抽象和中间表示来指导和促进图像生成过程，从而提供更多样化的输出。

May, 2024

具有深度语言理解的照片级文本到图像扩散模型

提出了一种 Imagin 技术，在理解文本方面，利用大型 transformer 语言模型，以高逼真度和深度的语言理解建立了文本到图像的扩散模型，实现了高保真的图像生成。通过一个全面的基准测试 DrawBench，该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。

May, 2022

可调节的草图上色方法：基于参考图像和文本

该研究论文探讨了基于图像引导的扩散模型在参考图像引导下的素描着色，并提出了两种使用不同图像特征作为条件输入的变种隐式扩散模型，以及相应的调整结果方法。通过定性和定量实验以及用户研究，全面评估了这些模型的性能。

Jan, 2024