从文本到掩码:使用文本 - 图像扩散模型的注意力定位实体
通过注意力机制的调节,我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制,旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明,我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。
Apr, 2024
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023
用不需要额外的训练的方法,通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明,所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。
Aug, 2023
我们提出了一种注意力调节方法,通过实时优化来对齐注意力图与输入文本提示,从而解决扩散模型中对某些令牌过分关注而导致语义逼真度下降的问题。在各种数据集、评估指标和扩散模型上进行了实验比较,结果表明我们的方法在减少计算开销的同时,始终优于其他基准方法,生成的图像更加忠实地反映了所需的概念。
Mar, 2024
扩散模型是具有令人印象深刻的文本到图像合成能力的生成模型,对于传统机器学习任务产生了一系列创新方法。然而,如何运用这些生成模型的感知知识来进行视觉任务仍然是一个未解之谜。本研究发现,自动生成的描述能够改善文本图像对齐,并显著提升模型的交叉注意力图,从而提高知觉性能。我们的方法在 ADE20K 数据集上改进了当前最先进的基于扩散的语义分割模型,并在 NYUv2 数据集上改进了当前最先进的深度估计模型。此外,我们的方法适用于跨领域环境;我们使用模型个性化和标题修改来将模型与目标域对齐,并改善了非对齐基准的性能。我们的目标检测模型,在 Pascal VOC 数据集上训练,实现了 Watercolor2K 数据集上的最佳结果。我们的分割方法,在 Cityscapes 数据集上训练,实现了 Dark Zurich-val 和 Nighttime Driving 数据集上的最佳结果。
Sep, 2023
使用文本 - 图像扩散模型生成的图像及其内部的文本 - 图像交叉注意力作为监督伪掩码,通过提出的方法 “attn2mask”,我们实现了一种不依赖于真实图像或手动标注的语义分割训练方法。实验证明,attn2mask 在 PASCAL VOC 上取得了令人满意的结果,而完全不使用真实训练数据进行分割,并且对于更多类别的情景,如 ImageNet 分割,也有很好的扩展性。同时,attn2mask 还表现出了基于 LoRA 的微调的适应能力,可以将其迁移到遥远的领域,如 Cityscapes。
Sep, 2023
本文提出了一种新的文本到图像算法,通过在扩散模型中加入显式的空间 - 时间交叉注意力控制,利用布局预测器和空间注意力控制相结合,实现优化组合权重的方式,从而生成与文本更高保真的图像。
Apr, 2023
我们研究了文本到图像扩散模型中的语义泄漏问题,并提出了一种名为有界注意力的方法,通过限定信息流的路径来解决泄漏问题,从而提高多主题生成的质量。
Mar, 2024
文本到图像扩散模型研究了知识表示和视觉特征,采用因果中介分析方法来理解大规模文本到图像扩散模型中不同视觉属性相关的知识是如何存储的,并发现在条件 UNet 的一组组件中分布着不同属性的知识。同时,发现在公共文本到图像模型中,只存在一个因果状态,这在其他语言模型中是不同的。基于这种观察,引入了一种快速、无需数据的模型编辑方法 Diff-QuickFix,可以在短时间内编辑(删除)模型中的概念,提供了 1000 倍的加速和与现有微调方法相当的编辑性能。
Oct, 2023