ConceptMix:一个可控难度的组合图像生成基准
本文提出了两个基于语言模型的可解释/可解释的视觉编程框架,用于文本到图像的生成和评估。其中,VPGen将T2I生成拆分成三个步骤,使用LM控制前两个步骤,并提供更强的空间控制;VPEval是一个解释性和可解释性评估框架,基于视觉编程,能够提供针对技能特定和开放性提示的人类相关性评估。
May, 2023
为了定量衡量T2I模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集ConceptBed和一个新的评估指标Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维度,研究发现概念学习和保持组合性之间存在权衡。
Jun, 2023
本研究提出了T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括6000个组合文本提示,分为3个类别和6个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
通过利用三层艺术理论的建议,我们提出了一种用于抽象概念的文本到图像生成的框架,该框架通过将抽象概念转化为明确的意图、从 LLMs 中提取的语义相关的物体和依赖于概念的形式来生成图像。人类评估结果和我们设计的概念评分指标的评价结果证明了我们的框架在表达抽象概念方面的有效性。
Sep, 2023
通过对预训练文本到图像扩散模型中的文本嵌入进行微调,我们设计了一种低成本的解决方案,实现自然多概念文本到图像生成,并在扩散步骤中不增加附加的训练或推理成本。我们的方法通过收集与最相似的令牌的语义特征来定位贡献,并应用交叉令牌非极大值抑制来避免不同概念之间的特征混合,从而在文本到图像、图像操作和个性化任务中优于以前的方法。
Oct, 2023
利用大型语言模型 (LLM) 从文本提示中提取关键组件,包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础,该模型通过两个阶段的操作实现,初步生成全局场景后,使用迭代细化方案对内容进行评估和修正,以确保与文本描述的一致性,从而在生成复杂的场景时展现出比传统扩散模型更好的召回率,经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。
Oct, 2023
我们提出了CompAgent,这是一种无需训练的组合文本到图像生成方法,核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性,尤其是在保留对象属性和关系方面,通过先将文本提示分解成独立的对象、属性和场景布局,并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。
Jan, 2024
MC^2 introduces Multi-concept guidance for Multi-concept customization, improving flexibility and fidelity in customized text-to-image generation while surpassing previous methods and elevating compositional capabilities.
Apr, 2024
我们通过对自动评价度量和人类模板进行广泛研究,介绍了一种综合的基于技能的基准,收集了超过100,000个注释,并引入了一种新的基于问答的自动评价度量,以在各种人类模板和TIFA160上更好地与人类评分相关联。
Apr, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024