Sep, 2023

注意力作为注释:使用扩散生成图像和伪掩蔽进行弱监督语义分割

TL;DR使用文本 - 图像扩散模型生成的图像及其内部的文本 - 图像交叉注意力作为监督伪掩码,通过提出的方法 “attn2mask”,我们实现了一种不依赖于真实图像或手动标注的语义分割训练方法。实验证明,attn2mask 在 PASCAL VOC 上取得了令人满意的结果,而完全不使用真实训练数据进行分割,并且对于更多类别的情景,如 ImageNet 分割,也有很好的扩展性。同时,attn2mask 还表现出了基于 LoRA 的微调的适应能力,可以将其迁移到遥远的领域,如 Cityscapes。