文本与图像合成对比性组合基准:统一文本与图像保真度指标的研究
本研究提出了 T2I-CompBench,这是一个全面的开放式文本成像生成基准测试,包括 6000 个组合文本提示,分为 3 个类别和 6 个子类别,并介绍了几个特定设计的评估度量标准,以评估组合文本到图像生成的效果,并提出了新的生成模型细调和奖励驱动的样本选择(GORS)方法来提高预训练文本到图像模型的组合文本到图像生成能力。
Jul, 2023
本文提出了一种新的框架,StyleT2I,旨在改善文本到图像合成的组合性,并且使用 CLIP 引导的对比损失、语义匹配损失和空间约束等方法来识别属性的潜在方向,从而更好地解开属性的潜在表示,最终获得更好的合成图像的组合性。
Mar, 2022
通过引入两种新目标函数(Separate loss 和 Enhance loss),减少物体遮挡区域重叠和最大化注意力分数,本研究提出了一个与传统方法不同的图文生成模型,通过关键参数的微调提高了其可扩展性和通用性,在图像真实性、文本 - 图像对齐性和适应性方面表现出卓越性能,将 Text-to-Image 扩散模型的组合能力和广泛适用性提升到了一个新的水平。
Dec, 2023
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力,该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD),作者评估了对象、属性、样式及四种组合性维度,研究发现概念学习和保持组合性之间存在权衡。
Jun, 2023
通过图文组合检索,通过由图像加上一些描述所构成的查询准确检索目标图像,在真实世界的损坏和进一步的文本理解下进行了坚固性研究,建立了三个用于系统分析的新的多样化基准,对视觉和文本的图文组合检索进行评估,包括自然失真的分析和文本理解的论证。
Nov, 2023
通过最大化与参考图像的一致性并惩罚与预训练模型的偏差,我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标,称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力,并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后,我们强调必须使用详尽的标题作为参考图像,以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面(this https URL)中找到。
Feb, 2024
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
对文本到图像模型中的提示准确性进行基准测试,比较评估了多种提示信实度度量,发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形,TS2,用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点,以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。
Apr, 2024
通过针对 prompt 模板的新度量方法,本文对多种 Text-to-Image(T2I)模型的对齐性进行了研究,并发现潜在噪声和提示概念数量、顺序和属性等因素对图像生成的影响。
Jul, 2023