无需训练的一致文本图像生成

Feb, 2024

Training-Free Consistent Text-to-Image Generation

Yoad Tewel, Omri Kaduri, Rinon Gal, Yoni Kasten, Lior Wolf...

TL;DRConsiStory 是一种无需训练的方法，通过共享预训练模型的内部激活来实现一致的主题生成，同时采用基于主题的共享注意力块和基于对应关系的特征注入来促进图像之间的一致性。通过与各种基线对比，我们展示了 ConsiStory 在主题一致性和文本对齐方面的最先进性能，而无需进行任何优化步骤。最后，ConsiStory 可以自然地扩展到多主题场景，甚至可以对常见物体进行无需训练的个性化。

Abstract

text-to-image models offer a new level of creative flexibility by allowing users to guide the image generation process through natural language

text-to-image models subject consistency consistory image generation natural language

发现论文，激发创造

无需训练的增强主体注意力引导的文本到图像生成

我们提出了一种主题驱动的生成框架，通过介入生成过程中的推理时间，强化注意力图，实现精确的属性绑定和特征注入，展示了卓越的零次生成能力，尤其在组合生成的挑战性任务中。

May, 2024

所选之人：文本到图像传播模型中的一致字符

最新的文本到图像生成模型在提供视觉创造力方面有巨大潜力，但在一致性字符生成方面存在困难。本文介绍了一种完全自动化的解决方案，通过文本提示作为唯一输入，使用迭代的过程来生成一致性字符，并展示了其在多个实际应用中的实践。

Nov, 2023

基于直接一致性优化的文本到图像个性化

通过最大化与参考图像的一致性并惩罚与预训练模型的偏差，我们提出了一种通过最小程度微调预训练模型以实现一致性的 T2I 扩散模型的新型训练目标，称为 “直接一致性优化”。我们的方法不仅简单而且显著提高了个性化 T2I 模型的组合能力，并引入了一种控制图像保真度和提示保真度权衡的抽样方法。最后，我们强调必须使用详尽的标题作为参考图像，以进一步增强图像和文本的对齐。我们证明了所提方法在 T2I 主题、风格或两者个性化方面的有效性。生成的示例和代码可在我们的项目页面（this https URL）中找到。

Feb, 2024

Cones 2: 多主体定制图像合成

研究在多个主题约束下如何高效地表示一个特定主题以及如何适当地组合不同主题，并提出了一种方案，该方案利用文本嵌入和布局来生成图像，并通过实验证明了其在多个主题的自定义方面具有优越性。

May, 2023

AutoStudio: 多回合互动图像生成中一致主题的构建

AutoStudio 是一个训练免费的多代理框架，通过使用大型语言模型生成高质量图像，并且能够与用户进行多次交互来生成一系列多主题图像。

Jun, 2024

DreamBooth: 针对主题驱动生成的 Fine Tuning 文字到图像扩散模型

提出了一种新的 text-to-image 模型的个性化方法，该方法能够通过少量输入的图像，fine-tune 预训练的 text-to-image 模型，使其能够将唯一标识符绑定到特定主题上，并能够综合场景、姿态、观点和光照中出现的主题的新颖的高清图像。

Aug, 2022

连贯的零射视觉指令生成

该论文提出了一种简单的、无需训练的框架，通过整合文本理解和图像生成，解决了在生成视觉指令中保持物体的一致性和平滑状态转换的问题，实验证明该方法可以生成一致且具有视觉吸引力的指令。

Jun, 2024

采用对比学习改进文本生成图像技术

本篇论文提出一种基于对比学习方法的文本到图像合成框架，旨在提升合成图像的质量和语义一致性，通过对 pretraining 和 GAN training 阶段进行改进，该方法在两个流行数据集上的实验结果表明，相对于 AttnGAN 和 DM-GAN，能够显著提高合成图像的质量。

Jul, 2021

快速个性化的文本到图像合成与注意力注入

我们提出了一种有效且快速的方法，可在不进行任何微调的情况下生成个性化图像，并保持扩散模型内在的文本到图像生成能力。通过操作原始扩散模型的交叉注意力和自注意力层，将自定义概念合并到生成图像中，以生成与文本描述相匹配的个性化图像。综合实验突出了我们方法的优越性。

Mar, 2024

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024