弱监督图像生成中的风格和语义控制

ECCVDec, 2019

弱监督图像生成中的风格和语义控制

Controlling Style and Semantics in Weakly-Supervised Image Generation

Dario Pavllo, Aurelien Lucchi, Thomas Hofmann

TL;DR我们提出了一种弱监督方法，实现复杂场景下的有条件图像生成，在该方法中，用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别，以及文本描述或属性来控制局部和全局风格，同时引入语义注意力模块来支持文本描述的条件，该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性，我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型，这使我们能够访问未注释的数据，并提供结构化实例信息。在这样的设置下，我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。

Abstract

We propose a weakly-supervised approach for conditional image generation of complex scenes where a user has fine control over objects appearing in the scene. We exploit sparse semantic maps to control object shap

weakly-supervised approach conditional image generation semantic attention module two-step generation scheme large-vocabulary object detector

发现论文，激发创造

SemanticStyleGAN：学习组合生成先验进行可控图像合成和编辑

通过训练一个生成器来分别对局部语义部分进行建模，控制不同区域的纹理并且实现更加细粒度的合成和编辑，SemanticStyleGAN 作为具有内置解缠结的通用先验模型，可以促进基于 GAN 的应用程序的发展并实现更多的下游任务。

Dec, 2021

可控制的图像生成：基于拼贴表现

本论文使用图像拼贴和对抗训练的方式，通过感知特征和空间位置控制元素，从而提高条件生成模型的场景可控性，并在 OpenImages 数据集上进行了实验验证。

Apr, 2023

半监督自修正语义图像分割网络

本研究介绍了一种半监督框架，通过一个辅助模型和一个自我纠正模块，在只有一小部分完全有监督图像的基础上，使用具有目标边界框标签的图像和只有目标边界框标签的图像集（称为弱集），训练出高质量的语义分割模型，这种方法比传统大量完全有监督数据模型要求的标注工作量减少～7 倍。

Nov, 2018

编辑风格：揭示 GAN 的本地语义

本文介绍了一种基于 StyleGAN 的语义编辑方法，可以局部移植另一张图像的特征，而不需要额外的监督或复杂的操作，实现了对 GAN 图像的语义编辑，并提高了图像的真实感。

Apr, 2020

语义合成图像

提出利用语义布局来综合生成逼真图像的新方法，该方法建立了区域之间的依赖关系并通过动态加权网络实现，既保留了语义区分，同时加强了语义相关性，提高了全局结构和细节的合成质量。

Sep, 2021

无标签神经语义图像合成

我们提出了一种新的无标签条件的扩散模型，通过神经语意图像合成从预训练基础模型提取的神经布局作为条件来实现细粒度的空间控制，实验结果表明，通过神经语意图像合成合成的图片在语义分类、实例分离和物体方向上比较传统的无标签条件选项更具优势，同时，我们还展示了通过神经布局条件生成的图片能够有效地用于训练各种感知任务。

Jul, 2024

弱监督语义分割的解耦空间神经关注模型

本文提出了一种基于神经网络空间注意力机制的弱监督图像分割算法，通过生成高质量的伪标注提升模型精度，在弱监督语义分割任务上达到了最先进水平。

Mar, 2018

CIMGEN：有限数据下基于预训练生成模型的受控图像操纵

提出的方法通过修改语义图像来灵活地生成和编辑图像，利用预先训练的图像到图像转换 GAN 进行改进，并展示了在图像伪造和图像编辑领域中的性能和应用，以及对抗深度学习图像取证技术的有效性和开发鲁棒且可推广的图像取证工具的紧迫需求。

Jan, 2024

无监督视觉 grounding 的学习：通过语义自监督

本文提出了一种新型的无监督视觉基础框架，使用概念学习作为代理任务来获得自我监督，以鼓励模型定位和解释语义属性，在多项实验中，该方法在图像本体库、ReferItGame 数据集上分别提升了 5.6% 和 5.8%，在 Flickr30k 数据集上达到了与最先进的表现相媲美的水平。

Mar, 2018

学习图像中个体物体的操纵

本文提出一种训练生成模型的方法，通过强制要求上下文信息分离和知觉循环一致性的结合，让潜在变量只会影响到某个物体的局部区域，从而实现对象为中心的操作，而且不需要对象级别的注释。

Apr, 2020