文本与图像合成对比性组合基准：统一文本与图像保真度指标的研究

Dec, 2023

文本与图像合成对比性组合基准：统一文本与图像保真度指标的研究

A Contrastive Compositional Benchmark for Text-to-Image Synthesis: A Study with Unified Text-to-Image Fidelity Metrics

Xiangru Zhu, Penglei Sun, Chengyu Wang, Jingping Liu, Zhixu Li...

TL;DRWinoground-T2I 是一个用于评估 T2I 模型组成性的基准，通过包含 11K 个复杂、高质量的对比句对来进行评估，通过比较性句对来评估各种指标的可靠性，最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力，该基准公开提供。

Abstract

Text-to-image (T2I) synthesis has recently achieved significant advancements. However, challenges remain in the model's compositionality, which is the ability to create new combinations from known components. We introduce →

text-to-image synthesis compositionality winoground-t2i contrastive sentence pairs metrics

发现论文，激发创造

T2I-CompBench：面向开放世界组合式文本到图像生成的综合基准测试

本研究提出了 T2I-CompBench，这是一个全面的开放式文本成像生成基准测试，包括 6000 个组合文本提示，分为 3 个类别和 6 个子类别，并介绍了几个特定设计的评估度量标准，以评估组合文本到图像生成的效果，并提出了新的生成模型细调和奖励驱动的样本选择（GORS）方法来提高预训练文本到图像模型的组合文本到图像生成能力。

Jul, 2023

StyleT2I: 面向复合和高保真的文本到图像合成

本文提出了一种新的框架，StyleT2I，旨在改善文本到图像合成的组合性，并且使用 CLIP 引导的对比损失、语义匹配损失和空间约束等方法来识别属性的潜在方向，从而更好地解开属性的潜在表示，最终获得更好的合成图像的组合性。

Mar, 2022

分离增强：用于文本到图像扩散模型的组合调优

通过引入两种新目标函数（Separate loss 和 Enhance loss），减少物体遮挡区域重叠和最大化注意力分数，本研究提出了一个与传统方法不同的图文生成模型，通过关键参数的微调提高了其可扩展性和通用性，在图像真实性、文本 - 图像对齐性和适应性方面表现出卓越性能，将 Text-to-Image 扩散模型的组合能力和广泛适用性提升到了一个新的水平。

Dec, 2023

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

ConceptBed: 评估文本到图像扩散模型的概念学习能力

为了定量衡量 T2I 模型在学习和合成新型视觉概念的能力，该论文提出了一个大规模数据集 ConceptBed 和一个新的评估指标 Concept Confidence Deviation (CCD)，作者评估了对象、属性、样式及四种组合性维度，研究发现概念学习和保持组合性之间存在权衡。

Jun, 2023

文本 - 图像组合检索的鲁棒性评估

通过图文组合检索，通过由图像加上一些描述所构成的查询准确检索目标图像，在真实世界的损坏和进一步的文本理解下进行了坚固性研究，建立了三个用于系统分析的新的多样化基准，对视觉和文本的图文组合检索进行评估，包括自然失真的分析和文本理解的论证。

Nov, 2023

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

评估文本与图像生成模型：人类图像合成的实证研究

我们在本文中提出了一种经验研究，介绍了一种用于文本到图像（T2I）生成模型的细致评估框架，应用于人类图像合成。我们的框架将评估分为两个不同的组别：第一组主要关注美学和真实性等图像质量，第二组则检验文本条件，包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型，评估生成图像的视觉吸引力，并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性，而公平性分析则揭示了模型输出中的偏见，特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础，但这种双重面向的方法被设计成具有灵活性，可以应用于其他形式的图像生成，增强我们对生成模型的理解，并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码，用于评估生成模型的数据以及标注有有缺陷区域的数据集。

Mar, 2024

谁来评估评估？用 T2IScoreScore（TS2）客观评分文本与图像提示一致性指标

对文本到图像模型中的提示准确性进行基准测试，比较评估了多种提示信实度度量，发现当前的视觉语言模型基于向量的度量无法在许多困难的 T2I 模型错误情况下显着优于基于特征的度量。介绍了一套语义错误图形，TS2，用于严格判断给定的提示信实度度量指标是否能够正确地对图像进行排序和区分不同的错误节点，以期通过客观的准则更严格地比较和发展更好的 T2I 期望提示信实度度量指标。

Apr, 2024

文本到图像生成对齐度评估度量 TIAM

通过针对 prompt 模板的新度量方法，本文对多种 Text-to-Image（T2I）模型的对齐性进行了研究，并发现潜在噪声和提示概念数量、顺序和属性等因素对图像生成的影响。

Jul, 2023