从结构文本生成视觉关系感知图像

ECCVAug, 2019

从结构文本生成视觉关系感知图像

Visual-Relation Conscious Image Generation from Structured-Text

PDF

Duc Minh Vo, Akihiro Sugimoto

TL;DR本文提出了一种基于视觉关系布局模块和堆叠式 GAN 网络的端到端图像生成方法，通过使用结构化文本中实体之间的关系，能够以高分辨率、保持场景结构的方式生成真实的图像。

Abstract

We propose an end-to-end network for image generation from given structured-text that consists of the →

end-to-end network image generation structured-text visual-relation layout stacking-gans

发现论文，激发创造

利用神经场景图生成器学习视觉关系先验用于图像文本匹配和图像字幕生成

通过结合神经场景图生成器和最先进的模型，我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试，在端到端的视觉和语言应用中捕获视觉关系。

Sep, 2019

在文本引导的图像生成中测试关系理解

本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察，发现只有大约 22％的图像与基本关系提示匹配。研究结果表明，当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系，本文从认知和计算两个角度，提出可能的改进方向。

Jul, 2022

StoryGAN：用于故事可视化的序贯条件 GAN

本研究提出了一种新的任务 —— 故事可视化，为每个句子生成一张图像，针对图像连续性与场景和角色的全局一致性的挑战，构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN，并通过质量和一致性指标优于现有模型。

Dec, 2018

通过语言表达视觉关系

该研究利用编码器 - 解码器结构和关系注意力等特征，提出了一种新的在两个图像之间生成关系说明的模型，并透过对新收集及公开的数据集进行实验，证明其比现有的各种基准线和方法都要好。

Jun, 2019

使用堆叠生成对抗网络实现文本到逼真图像的合成

本文提出 StackGAN，借助生成对抗网络，通过文本生成真实的 256x256 图像，经过两个 GAN 进行图像细节加强和修复，并且引入新的条件增强技术以提高图像多样性和稳定性，并取得了重大进展。

Dec, 2016

层次化文本图像合成的语义布局推断

本文提出一种新的基于语义布局的文本到图像的分层方法，通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成，能够提高图像质量和与输入文本的语义对齐性。

Jan, 2018

利用视觉关系和图卷积网络进行任意形状场景文本检测

本论文提出了一种名为 ReLaText 的新型任意形状文本检测方法，通过采用将文本检测转化为视觉关系检测问题的方法，使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络（GCN）的链接关系预测模块，实现了更为准确和高效的文本检测。实验结果表明，ReLaText 达到了 5 个公共文本检测基准（RCTW-17、MSRA-TD500、Total-Text、CTW1500 和 DAST1500）的最佳性能。

Mar, 2020

面向视觉文本呈现设计的组合感知图形布局生成对抗网络

本文提出了一种基于图像元素的深度生成模型 CGL-GAN，并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距，进而生成符合美感直觉的高质量图形布局。

Apr, 2022

关注关系网络：将图像映射到场景图

本研究提出了一种新颖的基于注意力机制的关系网络，其包含两个关键模块和一个目标检测主干以实现场景图自动生成，并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。

Nov, 2018

学习组合视觉关系

本文提出了一种基于能量的模型，通过正交分解的方式，实现了对场景中各个物体之间关系的描述和生成，并改进了对场景结构的理解方法。

Nov, 2021