本文提出了一种新的方法,通过找到生成模型中有意义的方向来提高生成模型潜在空间的可解释性,从而精确地控制生成图像的特定属性,如位置或比例。该方法对于搜索编码生成图像的简单变换方向(如平移,缩放或颜色变化)特别适用,并在 GAN 和变分自动编码器模型的质量和量化方面得到了证明。
Jan, 2020
通过学习一个新的方法,深度生成模型可以不需要姿态注释便可学习到表征物体外观和姿态等属性的独立潜在特征,这些特征是可以解释的,且能够生成和修改图像。
Oct, 2019
本文介绍了一种无需人工注释即可学习如何从图像集合中分割对象的模型构建框架,通过训练分层场景的生成模型和特征向量编码器,结合阈值分割技术实现了真实图像中多类物体的自动识别与分割。
May, 2019
我们提出了一种弱监督方法,实现复杂场景下的有条件图像生成,在该方法中,用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别,以及文本描述或属性来控制局部和全局风格,同时引入语义注意力模块来支持文本描述的条件,该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性,我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型,这使我们能够访问未注释的数据,并提供结构化实例信息。在这样的设置下,我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。
Dec, 2019
提出了一种无需手动监督来学习视觉对象(例如面部中的眼睛和鼻子)的地标探测器的方法,通过几何提取过程中引入的紧密瓶颈,结合外观和几何来生成图片,该方法适用于多种数据集,包括人脸、人物、3D 对象和数字,同时在无监督地标检测方面优于现有最先进的技术。
Jun, 2018
我们提出了一种有条件的生成模型,用于学习将标记的观察结果的隐藏变化因素分离并分解成互补代码,实验结果表明该方法能够推广到未见过的类别和内类别变异。
Nov, 2016
本研究提出了一种生成图像的模型,其对图像中的物体进行分割并学习了一种分离物体、背景及其深度和位置的结构化潜变量表示,它可以在无监督的情况下进行训练。该模型可以生成完整的物体,处理遮挡,并能够将新图像分解成组成部分,包括深度排序和遮挡部分的分割。
Apr, 2020
本文提供了一种使用预训练网络来学习数据的解缠表示的方法,以实现最小的监督,同时展示了该方法在头部图像领域上成功将身份从其他面部属性中解缠并显示出较好的评估结果。
May, 2020
该论文介绍了一种基于文本或图像的提示(如 “年轻的脸” 或 “惊讶的脸”)来操纵三维生成模型中形态和纹理的方法,利用了对比语言图像预训练模型(CLIP)和预训练的生成人脸的三维 GAN 模型创建了一个完全可微的渲染管道来操作网格。
Feb, 2022
该研究探索了使用生成对抗网络在三维空间中进行图像合成的可能性,并提出了一种无监督的方法,可从原始图像中解开简单场景的隐含三维因素。与纯二维基线相比,该方法允许合成与视角或物体姿势变化一致的场景,可用于实现 3D 可控图像合成,生成具有可解释性的表示形式。