Feb, 2024

框定它以进行统一布局控制和属性绑定:在T2I扩散模型中

TL;DR通过引入Box-it-to-Bind-it (B2B)模块来改进文本到图像扩散模型中的空间控制和语义准确性,针对文本到图像中的关键挑战(灾难性忽视、属性绑定和布局指导),通过两个主要步骤:目标生成,调整潜在编码以保证对象生成并将其定向到指定的边界框;属性绑定,确保生成的对象符合提示中指定的属性。B2B模块作为现有文本到图像模型的兼容插件,显著提高了模型性能。在CompBench和TIFA评分基准上对该技术进行评估,与现有方法相比,取得了显著的性能提升。源代码将在该网址公开提供。