TL;DR该研究提出了一种基于 padding space 的编码器结合 laten space 的方法,用于 GAN 的图像编辑任务,改善了空间细节的恢复质量,并实现了对图像更加灵活的编辑操作。
Abstract
Inverting a generative adversarial network (GAN) facilitates a wide range of
image editing tasks using pre-trained generators. Existing methods typically
employ the latent space of GANs as the inversion space yet
本文提出了一种域内 GAN 反演方法,旨在通过一个新颖的领域引导编码器将真实图像映射到 GAN 的本机潜在空间中,从而精确重构输入图像并同时确保倒置代码在语义域内,以便支持各种基于变化倒置代码的图像编辑任务。实验表明,我们的反演方法实现了令人满意的真实图像重建,同时大大提高了各种图像编辑任务的效率,并远远超过了当前领先的方法。
利用样式生成对抗网络(StyleGAN)的潜在空间,将真实图像反转并通过语义丰富的特征表示进行多项编辑,进一步扩展到将被擦除的图像反转到 GAN 的潜在空间中进行逼真修复和编辑的更为困难的任务,通过将反转的潜在编码与随机样本的 StyleGAN 映射特征组合,通过训练编码器和混合网络,利用生成的数据来鼓励混合网络同时利用两个输入,并利用高速特征来防止修复部分与未被擦除部分的颜色不一致,并通过与先进的反转和修复方法进行实验和对比,定量指标和视觉比较显示出显著的改进。
本研究提出了一种新的方法,可以在 GAN 的潜在空间中反演和编辑具有复杂场景布局和物体遮挡的图像,采用分层集合反演的思路,通过预测图像不同部分的可反转性,并将每个部分投影到潜在层中,系统学习将相对容易的区域反演到生成器的较早潜在空间,而将较具挑战性的区域反演到后续的特征空间。该方法相对于现有方法,获取了更好的具有相对复杂类别的反演结果,同时仍保持下游可编辑性。