学习图像中个体物体的操纵

Apr, 2020

Learning to Manipulate Individual Objects in an Image

Yanchao Yang, Yutong Chen, Stefano Soatto

TL;DR本文提出一种训练生成模型的方法，通过强制要求上下文信息分离和知觉循环一致性的结合，让潜在变量只会影响到某个物体的局部区域，从而实现对象为中心的操作，而且不需要对象级别的注释。

Abstract

We describe a method to train a generative model with latent factors that are (approximately) independent and localized. This means that perturbing the latent variables affects only local regions of the synthesiz

generative model latent factors object-centric manipulation spatial disentanglement perceptual cycle-consistency

发现论文，激发创造

通过连续变异因素控制生成模型

本文提出了一种新的方法，通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性，从而精确地控制生成图像的特定属性，如位置或比例。该方法对于搜索编码生成图像的简单变换方向（如平移，缩放或颜色变化）特别适用，并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。

Jan, 2020

图像合成的无监督鲁棒性潜在特征分离

通过学习一个新的方法，深度生成模型可以不需要姿态注释便可学习到表征物体外观和姿态等属性的独立潜在特征，这些特征是可以解释的，且能够生成和修改图像。

Oct, 2019

扰动生成模型中物体分割的出现

本文介绍了一种无需人工注释即可学习如何从图像集合中分割对象的模型构建框架，通过训练分层场景的生成模型和特征向量编码器，结合阈值分割技术实现了真实图像中多类物体的自动识别与分割。

May, 2019

弱监督图像生成中的风格和语义控制

我们提出了一种弱监督方法，实现复杂场景下的有条件图像生成，在该方法中，用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别，以及文本描述或属性来控制局部和全局风格，同时引入语义注意力模块来支持文本描述的条件，该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性，我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型，这使我们能够访问未注释的数据，并提供结构化实例信息。在这样的设置下，我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。

Dec, 2019

通过条件图像生成进行无监督物体地标学习

提出了一种无需手动监督来学习视觉对象（例如面部中的眼睛和鼻子）的地标探测器的方法，通过几何提取过程中引入的紧密瓶颈，结合外观和几何来生成图片，该方法适用于多种数据集，包括人脸、人物、3D 对象和数字，同时在无监督地标检测方面优于现有最先进的技术。

Jun, 2018

使用对抗训练解缠混合因素的深度表达

我们提出了一种有条件的生成模型，用于学习将标记的观察结果的隐藏变化因素分离并分解成互补代码，实验结果表明该方法能够推广到未见过的类别和内类别变异。

Nov, 2016

基于对象的图像生成：因子深度、位置和外观

本研究提出了一种生成图像的模型，其对图像中的物体进行分割并学习了一种分离物体、背景及其深度和位置的结构化潜变量表示，它可以在无监督的情况下进行训练。该模型可以生成完整的物体，处理遮挡，并能够将新图像分解成组成部分，包括深度排序和遮挡部分的分割。

Apr, 2020

通过潜在空间映射的人脸身份分离

本文提供了一种使用预训练网络来学习数据的解缠表示的方法，以实现最小的监督，同时展示了该方法在头部图像领域上成功将身份从其他面部属性中解缠并显示出较好的评估结果。

May, 2020

文本和图像帮助下的 3D 头像创造与操作

该论文介绍了一种基于文本或图像的提示（如 “年轻的脸” 或 “惊讶的脸”）来操纵三维生成模型中形态和纹理的方法，利用了对比语言图像预训练模型（CLIP）和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。

Feb, 2022

面向无监督学习的生成模型，用于三维可控图像合成

该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性，并提出了一种无监督的方法，可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比，该方法允许合成与视角或物体姿势变化一致的场景，可用于实现 3D 可控图像合成，生成具有可解释性的表示形式。

Dec, 2019