文本到图像生成和评估的可视化编程
本研究提出了T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括6000个组合文本提示,分为3个类别和6个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
本研究提出了一种从文本提示中合成与之语义对齐的高保真度图像的方法,采用了粗到细的范式来实现布局规划和图像生成,并通过粒度不同的目标交互扩散方法以优于现有方法的方式生成布局和图像。
Aug, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
利用大型语言模型作为布局生成器,改进了文本到图像生成模型,通过生成合理的对象布局来增强图像的构图和空间准确性,从而提高了图像质量。
Nov, 2023
通过采用分割和征服方法,我们改进了传统的扩散式文本到图像生成模型,使其在多个对象和复杂的空间关系下从文本生成图像,提高了可控性和一致性。
Mar, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024
本研究针对现有文本到图像(T2I)模型组合能力评估的多样性和复杂性不足的问题,提出了ConceptMix,一个可扩展、可控且可定制的基准。通过生成文本提示并评估图像生成结果,ConceptMix展示了与以往基准相比更强的区分能力,特别揭示了随着概念数量增加,多数模型表现显著下降,并为未来的T2I模型开发提供了指导。
Aug, 2024
本研究解决了布局到图像生成中,现有方法在复杂文本描述场景下表现不佳的问题。提出了一种新颖的区域交叉注意力模块,以增强生成过程,并提出了评估开放词汇情景下生成性能的新指标。研究发现,这些指标与人类偏好高度一致,具有重要的应用潜力。
Sep, 2024
本研究针对现有的文本到图像模型评估指标无法充分衡量模型处理多样文本提示能力的不足,提出了一种新指标VLEU。该指标通过计算视觉文本的边际分布与模型生成图像的条件分布之间的Kullback-Leibler散度,量化模型的普适性,实验结果表明VLEU对不同模型的评估有效,具有重要的研究意义。
Sep, 2024
本研究针对语言模型在图像生成中的应用存在的设计空间不足进行了探讨,揭示了图像标记与文本标记的随机性差异对训练的挑战。研究表明,尽管较小模型在捕捉全局上下文方面存在局限性,但较大模型的表现得到了显著提升,本研究为语言模型在视觉生成领域的有效设计提供了重要见解。
Oct, 2024