利用可靠随机种子增强组合文本到图像生成
本文基于扩散模型的可控属性,将语言结构与扩散过程相结合,进一步提高了T2I模型的组合能力,特别是更准确的属性绑定和更好的图像组合,这得益于跨注意层的帮助和语言洞察力。
Dec, 2022
本研究证明大型T2I扩散模型比通常认为的更加忠实,无需修改生成过程即可生成对复杂提示忠实的图像。在此基础上,提出了一个简单的管道,根据自动评分系统为文本提示生成候选图像,并选择最佳图像,同时保持可比较或更低的计算成本。
May, 2023
提出一种全新的基于训练自由的文本到图像生成/编辑框架RPG,该框架利用多模态LLMs的强大联想推理能力,提高了文本到图像扩散模型的组合性,并在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。
Jan, 2024
通过引入Prompt Auto-Editing (PAE)方法,我们改进了文本生成图像的初衷,进一步采用在线加强学习策略来探索每个词的权重和注入时间步长,从而实现了动态的精细控制提示。实验结果表明,我们的方法在改善原始提示的同时生成了视觉更吸引人的图像,并保持了语义的一致性。
Apr, 2024
我们对随机种子在扩散推断期间的影响进行了大规模的科学研究,并发现种子对生成的图像具有显著影响。我们进一步研究了种子对可解释的视觉维度的影响,并展示了通过使用这些优质的种子进行改进的图像生成,例如高保真推断和多样化采样。本研究突出了选择良好的种子的重要性,并为图像生成提供了实际效用。
May, 2024
通过研究基于组合性失败模式,我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因,并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进,同时不降低模型的 FID 分数。
Jun, 2024
基于扩散模型的文本到图像生成是现阶段的最先进技术,本研究通过对提示语的影响来探究黑盒扩散模型中的图像可变性,提出了W1KP人工校准的图像可变性度量方法,评估了新型扩散模型的性能。发现基于W1KP方法,在精确性方面胜过其他九个基线模型最高达18个点,且人工校准结果与人类判断78%的一致性。同时,利用W1KP,研究了提示语的可重用性,表明Imagen提示语可重复利用10-50次,Stable Diffusion XL和DALL-E3可以重复利用50-200次。最后,通过分析真实提示语的56个语言特征,发现提示语的长度、CLIP嵌入向量范数、具象度和词义影响图像的可变性。据我们所知,本研究是首个从视觉语言角度分析扩散可变性的研究。详细信息请参考项目页面:http URL
Jun, 2024
本研究针对现有文本到图像扩散模型在细粒度空间信息处理上的不足,通过提出一种两阶段的组合方法来优化图像生成。在第一阶段,设计基于扩散的生成模型生成与文本相关的中间表示;第二阶段则将这些表示与文本结合,生成最终图像。研究表明,该方法显著提高了图像生成质量,改善了FID和CLIP得分。
Oct, 2024
本研究针对文本到图像(T2I)生成模型在组合生成中的不足,尤其是在捕捉输入提示中的细节时面临的挑战。我们评估了新开源的扩散模型FLUX与现有自回归模型在组合生成能力上的差异,结果显示FLUX在多个指标上表现出色,超越了自回归模型LlamaGen,具有与顶尖闭源模型DALL-E3相当的组合生成能力。
Oct, 2024
本研究解决了当前文本到图像生成技术在处理复杂文本指令时存在的不足,尤其是涉及组合和多步骤推理的情况。通过提出生成、规划和编辑三步法,该方法能够准确识别生成图像中的错误,并灵活修正,从而显著提高生成图像的质量和可靠性。本研究不仅提升了现有模型的性能,还缩小了不同模型之间的性能差距。
Dec, 2024