StyleT2I: 面向复合和高保真的文本到图像合成

CVPRMar, 2022

StyleT2I: 面向复合和高保真的文本到图像合成

StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis

Zhiheng Li, Martin Renqiang Min, Kai Li, Chenliang Xu

TL;DR本文提出了一种新的框架，StyleT2I，旨在改善文本到图像合成的组合性，并且使用 CLIP 引导的对比损失、语义匹配损失和空间约束等方法来识别属性的潜在方向，从而更好地解开属性的潜在表示，最终获得更好的合成图像的组合性。

Abstract

Although progress has been made for text-to-image synthesis, previous methods fall short of generalizing to unseen or underrepresented attribute compositions in the input text. Lacking compositionality could have

text-to-image synthesis compositionality clip-guided contrastive loss semantic matching loss compositional attribute adjustment

发现论文，激发创造

无需训练的结构扩散引导的组合文本到图像合成

本文基于扩散模型的可控属性，将语言结构与扩散过程相结合，进一步提高了 T2I 模型的组合能力，特别是更准确的属性绑定和更好的图像组合，这得益于跨注意层的帮助和语言洞察力。

Dec, 2022

文本与图像合成对比性组合基准：统一文本与图像保真度指标的研究

Winoground-T2I 是一个用于评估 T2I 模型组成性的基准，通过包含 11K 个复杂、高质量的对比句对来进行评估，通过比较性句对来评估各种指标的可靠性，最后提供了关于指标的优点和缺点以及当前 T2I 模型在应对复杂组成类别挑战中的能力，该基准公开提供。

Dec, 2023

文本到图像生成模型中的构成问题的理解和减轻

通过研究基于组合性失败模式，我们发现文本到图像生成模型中 CLIP 文本编码器的文本条件不完备是无法生成高保真组合场景的主要原因，并提出仅通过在 CLIP 表示空间上学习简单的线性投影可以实现最佳组合性改进，同时不降低模型的 FID 分数。

Jun, 2024

T2I-CompBench：面向开放世界组合式文本到图像生成的综合基准测试

本研究提出了 T2I-CompBench，这是一个全面的开放式文本成像生成基准测试，包括 6000 个组合文本提示，分为 3 个类别和 6 个子类别，并介绍了几个特定设计的评估度量标准，以评估组合文本到图像生成的效果，并提出了新的生成模型细调和奖励驱动的样本选择（GORS）方法来提高预训练文本到图像模型的组合文本到图像生成能力。

Jul, 2023

通过共享注意力实现风格对齐图像生成

大规模文本到图像（T2I）模型在创意领域迅速崭露头角，从文本提示中生成令人惊叹的图像输出。然而，为了确保一致的风格而对这些模型进行控制仍然具有挑战性，现有方法需要微调和手动干预以分离内容和风格。在本文中，我们介绍了一种名为 StyleAligned 的创新技术，旨在在一系列生成的图像之间建立风格对齐。通过在扩散过程中采用最小的 ` 注意共享 '，我们的方法在 T2I 模型内保持了风格的一致性。这种方法通过简单的反演操作，使用参考风格创建具有一致风格的图像。我们方法在不同风格和文本提示上的评估表明，具有高质量的合成和保真度，突显其实现各种输入一致风格的效果。

Dec, 2023

文本到图像合成的双重对抗推理

该论文提出了通过增强当前文本到图像合成框架，使用双重对抗推理机制来学习潜在空间中表示内容和风格的两个变量，从而实现生成更高质量的图像。

Aug, 2019

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

样式生成：基于粗略匹配的图像合成

使用粗略匹配的文本作为引导，本研究介绍了一种新颖的基于文本的风格生成方法，通过两阶段的生成对抗网络生成与细化图像风格，并通过实验证实了该方法的有效性和实际应用价值。

Sep, 2023

分离增强：用于文本到图像扩散模型的组合调优

通过引入两种新目标函数（Separate loss 和 Enhance loss），减少物体遮挡区域重叠和最大化注意力分数，本研究提出了一个与传统方法不同的图文生成模型，通过关键参数的微调提高了其可扩展性和通用性，在图像真实性、文本 - 图像对齐性和适应性方面表现出卓越性能，将 Text-to-Image 扩散模型的组合能力和广泛适用性提升到了一个新的水平。

Dec, 2023

扩散模型的注意力映射控制组合式文本到图像合成

本文提出了一种基于预测的物体框的注意力掩码控制策略，以解决文本到图像合成模型在语义上的局限性，尤其是属性泄漏、实体泄漏和缺失实体，该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合，此外，该方法简单而有效，可以轻松集成到现有的跨注意力扩散 T2I 生成器中，并成功地在生成内容中传达了原始文本的语义，并作为可用的插件得到了高可用性的证明。

May, 2023