提升布局到图像合成的对象连贯性
提出利用语义布局来综合生成逼真图像的新方法,该方法建立了区域之间的依赖关系并通过动态加权网络实现,既保留了语义区分,同时加强了语义相关性,提高了全局结构和细节的合成质量。
Sep, 2021
本文提出了一种基于 Object-Centric GAN 的图像生成方法,使用 Scene-Graph Similarity Module 学习场景中物体之间的关系,并在生成器的条件机制上进行了改进,通过实验证明了该方法在生成多物体场景图像的质量和准确性方面的优势。
Mar, 2020
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
该研究提出了一种高分辨率稀疏注意力模块和一个生成器架构,可以在语义标签映射的基础上,有效地实现将输入图像的视觉细节转移至新布局。实验证明,该方法在图像修补和布局操作方面的性能得到了大幅提高。
Dec, 2020
我们提出了一种弱监督方法,实现复杂场景下的有条件图像生成,在该方法中,用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别,以及文本描述或属性来控制局部和全局风格,同时引入语义注意力模块来支持文本描述的条件,该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性,我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型,这使我们能够访问未注释的数据,并提供结构化实例信息。在这样的设置下,我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。
Dec, 2019
本文提出了一种名为 LayoutDiffusion 的扩散模型,通过构建结构图像块来解决布局与图像的多模态融合的难点,并利用 Object-aware Cross Attention 实现相对精确的分区和位置敏感的空间信息控制,实现比现有方法更高的生成质量和更高的可控性。
Mar, 2023
本文提出了一种基于草图标注的弱监督显著性物体检测的一轮端到端训练方法,使用局部一致性损失和显著性结构一致性损失来传播标签以预测完整的显著区域,同时使用聚合模块来更好地整合各种信息;该方法在六个基准测试中实现了最新水平表现。
Dec, 2020
我们提出了一种新的无标签条件的扩散模型,通过神经语意图像合成从预训练基础模型提取的神经布局作为条件来实现细粒度的空间控制,实验结果表明,通过神经语意图像合成合成的图片在语义分类、实例分离和物体方向上比较传统的无标签条件选项更具优势,同时,我们还展示了通过神经布局条件生成的图片能够有效地用于训练各种感知任务。
Jul, 2024
本文提出了一种新颖的内容注意力神经网络,可以模拟全局和语义结构的综合组成连贯性,并通过多个头部监督的全局连贯模块(GCL)和基于不同语义 / 关键区域的集中连贯学习模块(FCL)来学习集中连贯性,并在大规模真实世界数据上进行的实验表明,与几种最先进的方法相比,该方法的有效性得到清楚证明。
Jun, 2020
本文提出了一种基于图像元素的深度生成模型 CGL-GAN,并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距,进而生成符合美感直觉的高质量图形布局。
Apr, 2022