基于扩散模型的增强文本到图像生成的中间表示
Corgi 是一种新的文本图像生成方法,基于改进的扩散模型,可以有效地将输入文本转化为图像嵌入向量,与 DALL-E 2 相比,Corgi 在效率和效果上均表现更好,同时还支持半监督无语言训练。
Nov, 2022
本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用;此外,介绍了文本条件下图像合成、文本引导的创意生成和图像编辑,并探讨了当前的挑战和未来方向。
Mar, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法—— extsc{RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
Apr, 2023
改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。
Mar, 2024
本研究提出了一种名为MaxFusion的新策略,通过合并多个模型的对齐特征,为扩展到新模态条件的基于文本到图像生成模型提供了一个高效的伸缩方法。
Apr, 2024
现有的文本-图像模型在遵循复杂文本提示上困难重重,因此需要额外的基础输入以提高可控性。本研究提出将场景分解为可容纳细粒度细节、模块化、可解释的、易于构建的视觉基元-密集 Blob 表示。基于 Blob 表示,我们开发了一种基于 Blob 的文本-图像扩散模型 BlobGEN,用于组合生成。通过引入新的屏蔽式交叉注意力模块来解开 Blob 表示和视觉特征之间的融合,以发挥大型语言模型 (LLMs) 的组合性。我们引入了一种新的上下文学习方法来从文本提示生成 Blob 表示。我们广泛的实验表明,BlobGEN 在 MS-COCO 上实现了卓越的零样本生成质量和更好的布局引导可控性。当与 LLMs 结合使用时,我们的方法在组合图像生成基准上展现出卓越的数值和空间正确性。
May, 2024
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
本研究针对文本到图像(T2I)生成模型在组合生成中的不足,尤其是在捕捉输入提示中的细节时面临的挑战。我们评估了新开源的扩散模型FLUX与现有自回归模型在组合生成能力上的差异,结果显示FLUX在多个指标上表现出色,超越了自回归模型LlamaGen,具有与顶尖闭源模型DALL-E3相当的组合生成能力。
Oct, 2024
本研究针对现有文本到图像 (T2I) 模型评估中由于跨模态信息不对称导致的可靠性不足问题,提出了图像再生任务,以生成与参考图像相同的图像辅助评估。研究中引入了包含内容多样和风格多样的数据集,并通过ImageRepainter框架提高生成图像的质量,实验结果表明,该框架能够有效提升模型的生成能力。
Nov, 2024
本研究解决了文本到图像生成模型在处理组合提示(如“两个狗”或“碗右侧的企鹅”)时产生不一致结果的问题。我们提出了一种挖掘可靠噪声模式的方法,创建了无须人工标注的训练集,通过微调模型显著提高了其组合能力,特别是在数值组合与空间组合方面取得了显著提升。
Nov, 2024