使用条件生成对抗网络(conditional GANs)从语义标签图中合成高分辨率照片般真实的图像,并通过使用新的对抗性损失、多尺度生成器和鉴别器体系结构,生成 2048x1024 的视觉吸引力结果。此外,我们将我们的框架扩展到与两个额外功能的交互式视觉操作,它们是:将对象实例分割信息整合进去以进行对象操作(如删除 / 添加对象和更改对象类别),以及提出一种方法,可以在给定相同输入的情况下,生成不同的结果,允许用户交互式地编辑对象外观。人的意见研究表明,我们的方法在深层图像合成和编辑方面的质量和分辨率方面都显着优于现有方法。
Nov, 2017
本文提出了 Panoptic Layout Generative Adversarial Networks(PLGAN)来解决交互式场景中实现真实感的假图像生成难题,该方法使用 panoptic 理论根据物体的形状判断物体种类,将 stuff 和 instance 布局分别构建后再融合为 panoptic 布局,实验结果表明 PLGAN 具有明显优势。
Mar, 2022
通过在生成器中条件化卷积核以更好地利用语义布局,提出一种特征金字塔语义嵌入判别器的多尺度生成对抗网络方法,该方法在各种语义分割数据集上实现了优秀的量化指标和主观评估。
Oct, 2019
提出利用语义布局来综合生成逼真图像的新方法,该方法建立了区域之间的依赖关系并通过动态加权网络实现,既保留了语义区分,同时加强了语义相关性,提高了全局结构和细节的合成质量。
Sep, 2021
提出了一种新型的基于特征骨干网络和交叉注意力机制的生成对抗网络(GAN)辨别器,用于语义图像合成,实现了在 ADE-20K,COCO-Stuff 和 Cityscapes 数据集上与输入标签地图的图像质量和一致性方面的最先进结果,相较于最近的扩散模型,在推理过程中计算量减少了两个数量级。
Dec, 2023
该论文提出了一种方法来合成高度逼真的三维物体模型图像,并利用这些图像训练卷积神经网络以在真实图像中检测物体。
Feb, 2019
提出了一种名为 pix2pix3D 的 3D 感知条件生成模型,可以进行可控的写实图像合成,并通过神经辐射场扩展了条件生成模型,从而实现了显式的 3D 用户控制,并建立了一个交互系统,允许用户从任意视角编辑标签图,并相应地生成输出。
Feb, 2023
通过自学习方法在合成到真实的领域适应问题设置中,开发了一个基于嵌入的自学习全景分割框架。
Nov, 2023
本文提出了一种使用无监督学习和鉴别器的框架,通过对城市场景生成逼真的照片来实现自主驾驶,避免大量验证和训练数据的高昂成本。
May, 2023
该研究证明使用带有适当结构的前馈网络进行直接回归,而不必依赖对抗性训练,可以从语义布局中合成具有照片外貌的图像,并通过实验证明此方法比其他方法更加逼真。
Jul, 2017