跨注意力控制实现免费本地化文本图像生成
通过修改跨注意力矩阵,在保持图像质量的同时改进控制能力,本研究以 ControlNet 为例,研究了几种现有的跨注意力控制方法的局限性,并提出了一种新的跨注意力操纵方法,通过定位描述来实现对生成图像的精细控制。
Feb, 2024
本文介绍了一种新的简单而实用的任务设置:局部控制,它通过用户定义的图像条件在特定的局部区域进行控制,其余区域仅通过原始文本提示进行调节。我们提出了一种无需训练的方法,利用去噪过程中噪声潜变量和参数的更新,在交互注意力图中促进非控制区域的概念生成。此外,我们使用特征屏蔽约束解决局部控制区域内外信息差异导致的合成图像质量下降问题。广泛的实验表明,我们的方法可以在局部控制条件下合成出高质量的图像。
Dec, 2023
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
通过提示文本控制生成的图像在空间布局方面存在问题,因此我们提出了一种名为布局引导技术的新方法,该方法可以改进模型的交叉注意层,以实现所需的重建方向,并成功进行了定量和定性的实验验证与扩展。
Apr, 2023
该研究探讨了文本条件扩散模型在推理过程中的跨注意力的作用。研究发现,跨注意力输出在几个推理步骤后趋于一个固定点。因此,收敛的时间点自然地将整个推理过程分为两个阶段:初始的语义规划阶段,此阶段模型依赖于跨注意力来规划与文本相关的视觉语义;以及接下来的提高保真度阶段,在此阶段模型试图根据之前规划的语义生成图像。令人惊讶的是,在提高保真度阶段忽略文本条件不仅降低计算复杂度,而且保持了模型的性能。这产生了一种简单且无需训练的有效生成方法,称为 TGATE,它在收敛后缓存跨注意力输出,并在剩余推理步骤中保持固定。我们在 MS-COCO 验证集上的实证研究证实了其有效性。TGATE 的源代码可在此 https URL 中获取。
Apr, 2024
TextCenGen 是一种新的文本图像生成方法,采用了力导向注意力引导模型,以生成更具和谐感的文字图像布局。在图形设计方面的实验结果显示,TextCenGen 相较于传统方法在布局上更出色,同时在特定文本位置的数据集上也显著提高了 Text-to-image 模型的结果。
Apr, 2024
本研究提出了一种新的受控图像文本生成任务 Qc-TextCap,并通过设计问题控制模型(GQAM)达到比现有模型更好的文本生成性能和问题答案能力,同时构建了两个数据集(ControlTextCaps 和 ControlVizWiz),提高了多样化和信息性。
Aug, 2021
该论文提出了一种新颖的可控文本到图像生成对抗网络 (ControlGAN),它能够有效地合成高质量图像并根据自然语言描述控制图像的生成。该方法采用词级空间和通道注意力机制对不同的视觉属性进行分离,并通过词级鉴别器提供细粒度的监督反馈,使生成器能够对特定的视觉属性进行操作。通过大量的实验证明,我们的方法优于现有的最先进技术,并能够通过自然语言描述有效地操作合成图像。
Sep, 2019