提升布局到图像合成的对象连贯性

Nov, 2023

提升布局到图像合成的对象连贯性

Enhancing Object Coherence in Layout-to-Image Synthesis

Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin

TL;DR我们提出了一种新颖的扩散模型，通过全局语义融合和自相似特征增强模块来引导对象的一致性，并采用自相似性一致性注意模块来显式地将局部背景一致性整合到每个像素的生成过程中。实验结果表明，该方法在图像生成质量和可控性方面具有优势。

Abstract

layout-to-image synthesis is an emerging technique in conditional image generation. It aims to generate complex scenes, where users require fine control over the layout of the objects in a scene. However, it remains challenging to control the →

layout-to-image synthesis object coherence semantic coherence physical coherence self-similarity feature enhancement

发现论文，激发创造

语义合成图像

提出利用语义布局来综合生成逼真图像的新方法，该方法建立了区域之间的依赖关系并通过动态加权网络实现，既保留了语义区分，同时加强了语义相关性，提高了全局结构和细节的合成质量。

Sep, 2021

从布局生成物体中心的图像

本文提出了一种基于 Object-Centric GAN 的图像生成方法，使用 Scene-Graph Similarity Module 学习场景中物体之间的关系，并在生成器的条件机制上进行了改进，通过实验证明了该方法在生成多物体场景图像的质量和准确性方面的优势。

Mar, 2020

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

高分辨率稀疏注意力下的语义布局操作

该研究提出了一种高分辨率稀疏注意力模块和一个生成器架构，可以在语义标签映射的基础上，有效地实现将输入图像的视觉细节转移至新布局。实验证明，该方法在图像修补和布局操作方面的性能得到了大幅提高。

Dec, 2020

弱监督图像生成中的风格和语义控制

我们提出了一种弱监督方法，实现复杂场景下的有条件图像生成，在该方法中，用户可以对场景中出现的对象进行精细控制。我们利用稀疏语义地图来控制对象的形状和类别，以及文本描述或属性来控制局部和全局风格，同时引入语义注意力模块来支持文本描述的条件，该模块的计算成本与图像分辨率无关。为了进一步增强场景的可控性，我们提出了一个两步生成方案来分解背景和前景。我们使用大词汇目标检测器产生的标签地图来训练模型，这使我们能够访问未注释的数据，并提供结构化实例信息。在这样的设置下，我们报告了比全监督设置更好的 FID 得分。我们还展示了我们的模型在 COCO 和 Visual Genome 等复杂数据集上操作场景的能力。

Dec, 2019

LayoutDiffusion：可控的布局到图像生成扩散模型

本文提出了一种名为 LayoutDiffusion 的扩散模型，通过构建结构图像块来解决布局与图像的多模态融合的难点，并利用 Object-aware Cross Attention 实现相对精确的分区和位置敏感的空间信息控制，实现比现有方法更高的生成质量和更高的可控性。

Mar, 2023

局部显著性一致的结构一致性弱监督显著物体检测

本文提出了一种基于草图标注的弱监督显著性物体检测的一轮端到端训练方法，使用局部一致性损失和显著性结构一致性损失来传播标签以预测完整的显著区域，同时使用聚合模块来更好地整合各种信息；该方法在六个基准测试中实现了最新水平表现。

Dec, 2020

无标签神经语义图像合成

我们提出了一种新的无标签条件的扩散模型，通过神经语意图像合成从预训练基础模型提取的神经布局作为条件来实现细粒度的空间控制，实验结果表明，通过神经语意图像合成合成的图片在语义分类、实例分离和物体方向上比较传统的无标签条件选项更具优势，同时，我们还展示了通过神经布局条件生成的图片能够有效地用于训练各种感知任务。

Jul, 2024

学习组合视觉协调性以进行互补推荐

本文提出了一种新颖的内容注意力神经网络，可以模拟全局和语义结构的综合组成连贯性，并通过多个头部监督的全局连贯模块（GCL）和基于不同语义 / 关键区域的集中连贯学习模块（FCL）来学习集中连贯性，并在大规模真实世界数据上进行的实验表明，与几种最先进的方法相比，该方法的有效性得到清楚证明。

Jun, 2020

面向视觉文本呈现设计的组合感知图形布局生成对抗网络

本文提出了一种基于图像元素的深度生成模型 CGL-GAN，并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距，进而生成符合美感直觉的高质量图形布局。

Apr, 2022