Nov, 2023

Ranni:控制文本到图像扩散来提高精确的指令跟踪

TL;DR我们引入了一种语义面板作为中介来解码文本到图像的过程,用于支持生成器更好地遵循指示。这种面板是通过将从输入文本解析的视觉概念经由大型语言模型的辅助排列而成,然后注入到去噪网络作为详细的控制信号来补充文本条件。通过这样的设计,我们的方法 Ranni 在提高预训练的 T2I 生成器的文本可控性方面取得了进展,并引入了生成性中介,提供了一种更方便的交互形式,并允许用户根据其进行精细的生成定制,基于此我们开发了一个实用系统,并展示了其在连续生成和基于聊天的编辑中的潜力。