从结构文本生成视觉关系感知图像
通过结合神经场景图生成器和最先进的模型,我们的实验表明用于促进语言到视觉关系的关系特征能够显著改进标准的 Flickr30K 和 MSCOCO 基准测试,在端到端的视觉和语言应用中捕获视觉关系。
Sep, 2019
本研究使用了 15 种基本物质和社会关系对最近的文本引导图像生成模型 DALL-E2 进行了系统的经验性考察,发现只有大约 22%的图像与基本关系提示匹配。研究结果表明,当前的图像生成模型尚未掌握涉及简单对象和代理人的基本关系,本文从认知和计算两个角度,提出可能的改进方向。
Jul, 2022
本研究提出了一种新的任务 —— 故事可视化,为每个句子生成一张图像,针对图像连续性与场景和角色的全局一致性的挑战,构建了基于顺序条件 GAN 框架的故事到图像序列生成模型 ——StoryGAN,并通过质量和一致性指标优于现有模型。
Dec, 2018
该研究利用编码器 - 解码器结构和关系注意力等特征,提出了一种新的在两个图像之间生成关系说明的模型,并透过对新收集及公开的数据集进行实验,证明其比现有的各种基准线和方法都要好。
Jun, 2019
本文提出 StackGAN,借助生成对抗网络,通过文本生成真实的 256x256 图像,经过两个 GAN 进行图像细节加强和修复,并且引入新的条件增强技术以提高图像多样性和稳定性,并取得了重大进展。
Dec, 2016
本文提出一种新的基于语义布局的文本到图像的分层方法,通过语义布局生成器和图像生成器将生成过程分解为多个步骤完成,能够提高图像质量和与输入文本的语义对齐性。
Jan, 2018
本论文提出了一种名为 ReLaText 的新型任意形状文本检测方法,通过采用将文本检测转化为视觉关系检测问题的方法,使用基于锚点自由区域提案网络的文本检测器以及基于图卷积网络(GCN)的链接关系预测模块,实现了更为准确和高效的文本检测。实验结果表明,ReLaText 达到了 5 个公共文本检测基准(RCTW-17、MSRA-TD500、Total-Text、CTW1500 和 DAST1500)的最佳性能。
Mar, 2020
本文提出了一种基于图像元素的深度生成模型 CGL-GAN,并设计了域对齐模块 DAM 来缩小训练和测试输入之间的差距,进而生成符合美感直觉的高质量图形布局。
Apr, 2022
本研究提出了一种新颖的基于注意力机制的关系网络,其包含两个关键模块和一个目标检测主干以实现场景图自动生成,并在 Visual Genome 数据集上进行了实验验证其有效性和优越性。
Nov, 2018