注意力作为注释：使用扩散生成图像和伪掩蔽进行弱监督语义分割

Sep, 2023

注意力作为注释：使用扩散生成图像和伪掩蔽进行弱监督语义分割

Attention as Annotation: Generating Images and Pseudo-masks for Weakly Supervised Semantic Segmentation with Diffusion

Ryota Yoshihashi, Yuya Otsuka, Kenji Doi, Tomohiro Tanaka

TL;DR使用文本 - 图像扩散模型生成的图像及其内部的文本 - 图像交叉注意力作为监督伪掩码，通过提出的方法 “attn2mask”，我们实现了一种不依赖于真实图像或手动标注的语义分割训练方法。实验证明，attn2mask 在 PASCAL VOC 上取得了令人满意的结果，而完全不使用真实训练数据进行分割，并且对于更多类别的情景，如 ImageNet 分割，也有很好的扩展性。同时，attn2mask 还表现出了基于 LoRA 的微调的适应能力，可以将其迁移到遥远的领域，如 Cityscapes。

Abstract

Although recent advancements in diffusion models enabled high-fidelity and diverse image generation, training of discriminative models largely depends on collections of massive real images and their manual annotation. Here, we present a training method for →

diffusion models semantic segmentation attn2mask weakly supervised segmentation imagenet segmentation

发现论文，激发创造

Free-ATM：自由关注遮罩下基于扩散生成图像的无监督学习探索

通过利用扩散模型生成的人工图像中的自由注意力掩膜进行无监督学习，可以在图像分类、检测、分割和图像 - 文本检索等多个下游任务中实现基线模型的一致性改进，从而缩小无监督预训练在合成数据和现实场景之间的性能差距。

Aug, 2023

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

SatSynth: 针对航空语义分割的扩充图像 - 掩膜对的扩散模型

我们在地球观测任务中研究使用生成图像扩散来解决标注数据稀缺的问题，并发现生成的样本在提高卫星语义分割的定量性能方面取得了显著的改进。

Mar, 2024

针对空间控制文本到图像生成的遮蔽注意力扩散引导

用不需要额外的训练的方法，通过交叉关注地图和掩膜引导实现文本到图像生成的空间控制。实验结果表明，所提出的方法在定性和定量上比基线方法实现了更准确的空间控制。

Aug, 2023

数据集扩散：基于扩散的像素级语义分割合成数据集生成

通过利用文本到图像生成模型 Stable Diffusion (SD) 的文本提示、交叉注意力和自我注意力，我们引入了三种新技术：类别提示附加，类别提示交叉注意力和自我注意力指数化，从而生成与合成图像相对应的分割地图，这些地图可以作为训练语义分割器的伪标签，消除了对像素级注释的繁重需求，我们还在 PASCAL VOC 和 MSCOCO 两个数据集上进行了评估，我们的方法明显优于同行的工作。

Sep, 2023

SegAttnGAN: 带有分割注意力的文本到图像生成

本文提出了一种新颖的生成网络（SegAttnGAN），该网络利用附加的分割信息来进行文本到图像综合任务，通过引入分割数据对生成器训练提供有用的指导，相较于之前的最先进技术，本模型可以生成更具真实感和更高量化准确性的图像，我们在 CUB 数据集上获得了 4.84 的内在分数和在 Oxford-102 数据集上获得了 3.52 的分数。此外，我们还测试了自我关注 SegAttnGAN，该模型使用生成的分割数据而非数据集的掩码进行注意，并获得了类似的高质量结果，说明我们的模型可用于文本到图像综合任务。

May, 2020

扩张模型中的语义分割的词汇开放式注意力图与令牌优化

通过 Open-Vocabulary Attention Maps (OVAM) 方法，我们提出了一种基于迁移学习的模块 (Nucleus) 来训练大规模的中文文本生成系统 TextGPT，该模型利用 Transformer 将初始输入句子转换成生成句子所需的上下文嵌入向量，然后基于这些上下文嵌入生成生成句子。

Mar, 2024

扩散模型是一个无需训练的开放词汇语义切分工具

最近的研究探讨了利用预训练的文本 - 图像判别模型（如 CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪 U-Net 产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。

Sep, 2023

扩散模型的注意力映射控制组合式文本到图像合成

本文提出了一种基于预测的物体框的注意力掩码控制策略，以解决文本到图像合成模型在语义上的局限性，尤其是属性泄漏、实体泄漏和缺失实体，该方法通过约束查询语句中每个标记的注意区域来实现更准确的语义综合，此外，该方法简单而有效，可以轻松集成到现有的跨注意力扩散 T2I 生成器中，并成功地在生成内容中传达了原始文本的语义，并作为可用的插件得到了高可用性的证明。

May, 2023

通过注意力调节改进文本到图像生成对齐

通过注意力机制的调节，我们提出了一种用于扩散模型的无需训练的逐阶段聚焦机制，旨在解决多实体和属性的文本提示处理中的注意力分布不均问题。我们的实验结果证明，我们的模型在各种情况下都能够以最小的计算成本实现更好的图像与文本的对齐。

Apr, 2024