从布局生成物体中心的图像
本文提出了一种基于对物体的关注的生成对抗网络,可用于复杂场景的文本到图像合成,该网络生成器长注重于文本描述中最相关的单词和预生成的语义布局,以合成显著物体,同时提出了一种快速区域卷积神经网络(Fast R-CNN)的新技术,以提供丰富的针对对象的区分信号,判断生成的物体与文本描述和预生成布局是否匹配。该提出的 Obj-GAN 在大规模 COCO 基准测试中表现出色,提高了 27%的 Inception 分数并降低了 11%的 FID 分数。通过分析它们的机制和可视化他们的注意层,提供了传统网格注意和新型对象驱动注意之间的全面比较,展示了本模型如何高质量地生成复杂场景的见解。
Feb, 2019
提出了一种新的方法,通过逐步生成整个布局描述来改善物体间的依赖关系,从而生成高质量的中间布局和最终图像,提高了布局覆盖率近 20 个百分点,减少了物体之间的重叠到可忽略的程度。
Sep, 2020
提出了一种利用场景图生成图像的模型,其中包括图形卷积来处理输入图形、预测对象的边界框和分割掩模来计算场景布局,并使用级联细化网络将布局转换为图像,训练对抗鉴别器来确保生成的图像具有逼真度。
Apr, 2018
本文提出了 Panoptic Layout Generative Adversarial Networks(PLGAN)来解决交互式场景中实现真实感的假图像生成难题,该方法使用 panoptic 理论根据物体的形状判断物体种类,将 stuff 和 instance 布局分别构建后再融合为 panoptic 布局,实验结果表明 PLGAN 具有明显优势。
Mar, 2022
该研究论文提出了一种新的布局到图像生成模型,通过引入上下文感知特征变换模块和 Gram 矩阵,成功地解决了目前现有模型中存在的局限性,实现了 COCO-Thing-Stuff 和 Visual Genome 数据集上的最佳性能。
Mar, 2021
本文提出了一种基于生成对抗网络的场景生成框架,通过显式控制场景的背景和前景的生成器生成多样化的图像并更好的应对仿射变换和前景物体的遮挡等问题。
Feb, 2019
Layout2Im 是一种基于布局的图像生成方法,将物体表示分解为指定和不确定部分,并使用卷积 LSTM 编码并解码整个布局,以生成准确且多样化的图像,提高了最佳 Inception 分数 24.66%至 28.57%。
Nov, 2018
本文介绍一种名为 GENESIS 的三维视觉场景对象生成模型,通过捕捉场景组件之间的关系,能够分解和生成场景,并在公开数据集上进行了性能评估和半监督学习。
Jul, 2019
我们提出了一种新颖的扩散模型,通过全局语义融合和自相似特征增强模块来引导对象的一致性,并采用自相似性一致性注意模块来显式地将局部背景一致性整合到每个像素的生成过程中。实验结果表明,该方法在图像生成质量和可控性方面具有优势。
Nov, 2023