CogView3 是一种基于级联框架的文本到图像生成模型,通过实现中继扩散和超分辨率技术来提升性能,在人工评估中比当前开源文本到图像扩散模型 SDXL 表现优秀 77.0%,同时只需约 1/2 的推理时间。
Mar, 2024
介绍了一种信息丰富的扩散模型,名为 ParaDiffusion,用于段落到图像生成任务,通过利用大型语言模型来提升图像生成模型的语义理解能力,并在长文本语义对齐训练方面取得了优异结果。
Nov, 2023
提出了一种 Imagin 技术,在理解文本方面,利用大型 transformer 语言模型,以高逼真度和深度的语言理解建立了文本到图像的扩散模型,实现了高保真的图像生成。通过一个全面的基准测试 DrawBench,该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。
May, 2022
研究使用空间特征和自我关注来实现生成图片结构的微调,并将其用于文本到图像合成中,从而实现图像到图像转换。
Nov, 2022
本文提出了 ERNIE-ViLG 2.0,一种大规模中文文本到图像扩散模型,通过将场景中的关键元素的精细文本和视觉知识纳入模型,并利用不同的去噪专家在不同的去噪阶段,逐步提高生成图像的质量,并在 MS-COCO 上实现了新的最先进的零样本 FID 得分,而且在图像保真度和图像 - 文本对齐方面显着优于最近的模型,同时得到了 ViLG-300 双语提示集的人类评估。
Oct, 2022
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种 “文字涂鸦” 的技术,可帮助用户控制所需的图像输出。
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法,用于分割任务。
Sep, 2023
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
我们提出了一种能够根据情感类别生成语义清晰、情感忠实的图像的新任务,具有显著优于现有文本到图像扩散模型的定量和定性表现,并且能够帮助情感理解和激发情感艺术设计。
Jan, 2024