Ranni：控制文本到图像扩散来提高精确的指令跟踪

Nov, 2023

Ranni：控制文本到图像扩散来提高精确的指令跟踪

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following

Yutong Feng, Biao Gong, Di Chen, Yujun Shen, Yu Liu...

TL;DR我们引入了一种语义面板作为中介来解码文本到图像的过程，用于支持生成器更好地遵循指示。这种面板是通过将从输入文本解析的视觉概念经由大型语言模型的辅助排列而成，然后注入到去噪网络作为详细的控制信号来补充文本条件。通过这样的设计，我们的方法 Ranni 在提高预训练的 T2I 生成器的文本可控性方面取得了进展，并引入了生成性中介，提供了一种更方便的交互形式，并允许用户根据其进行精细的生成定制，基于此我们开发了一个实用系统，并展示了其在连续生成和基于聊天的编辑中的潜力。

Abstract

Existing text-to-image (T2I) diffusion models usually struggle in interpreting complex prompts, especially those with quantity, object-attribute binding, and multi-subject descriptions. In this work, we introduce a semantic panel as the middleware in decoding texts to images, supporting the generator to better follow instructions. The panel is obtained throu

t2i diffusion models semantic panel visual concepts text-to-panel learning ranni

发现论文，激发创造

DivCon: 渐进式文本到图像生成的分割与征服

通过采用分割和征服方法，我们改进了传统的扩散式文本到图像生成模型，使其在多个对象和复杂的空间关系下从文本生成图像，提高了可控性和一致性。

Mar, 2024

文本到图像扩散模型的语义引导调整

最近的文本到图像 (T2I) 扩散模型的进展在生成具有零样本泛化能力的高质量图像方面取得了令人印象深刻的成功。然而，当前的模型在紧密遵循提示语义方面存在困难，通常会误代或忽视特定属性。为了解决这个问题，我们提出了一种简单的、无需训练的方法，在推理过程中调节扩散模型的引导方向。我们首先将提示语义分解为一组概念，并监控与每个概念相关的引导轨迹。我们的关键观察是，模型在遵循提示语义方面的偏离与引导从一个或多个概念偏离的差异高度相关。基于这一观察，我们设计了一种技术，将引导方向引导至模型偏离的任何概念。广泛的实验验证了我们的方法可以改善扩散模型对提示的语义对齐。项目页面可在此链接上找到: this https URL

Dec, 2023

RenAIssance: 大型模型时代的 AI 文字到图像生成调查

文本到图像生成使用神经网络和扩展模型规模的创新模型架构与预测增强技术相结合的方法，提供了几种不同的方法并对其进行了详细比较和评价，为未来的工作提供了改进的可能路径。

Sep, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了 LenCom-Eval 和 MARIO-Eval 基准测试的 OCR 效果的训练自由框架，提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

基于文本的图像处理方法：语义与恢复指导

开发了一个基于文本的图像处理框架（TIP），可以通过自然语言作为用户友好界面来控制图像恢复过程，并通过语言的定量规范实现细粒度的指导，以达到更好的恢复性能。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

可控生成的文本 - 图像扩散模型：一份综述

在控制生成方面与文本到图像扩散模型的研究领域，通过调查文献并总结了控制性生成，包括基本概念和实践研究。

Mar, 2024

Mini-DALLE3：通过激励大型语言模型实现交互式文本到图像

人工智能内容生成的革命已经通过快速发展的文本到图像（T2I）扩散模型得到了加速。本研究中，我们通过与最新发布的 DALLE3 集成的 T2I 模型 ChatGPT 重新审视现有的 T2I 系统，并引入新的任务 —— 交互式文本到图像（iT2I），人们可以与 LLM（语言模型）进行交互，以生成、编辑、精炼高质量图片，并通过自然语言进行问题回答。通过引入提示技术和现成的 T2I 模型，我们提出了一种简单的方法来增强 LLMs 在 iT2I 上的能力。我们在不同的 LLMs（如 ChatGPT、LLAMA、Baichuan 和 InternLM）下在多种常见场景中评估了我们的方法，证明我们的方法可以方便、低成本地为任何现有 LLMs 和任何文本到图像模型引入 iT2I 功能，同时对 LLMs 在问题回答和代码生成等方面的固有能力造成很小的降低。我们希望本研究能够引起更多关注，并为提升人机交互的用户体验和下一代 T2I 系统的图像质量提供灵感。

Oct, 2023