场景生成的组合变形器
该研究介绍了 GANformer—— 一种高效的 transformer 类型,探索其在视觉生成建模任务中的应用。它通过双分图结构实现图像间的长距离相互作用,并保持线性计算效率,能够轻松扩展到高分辨率综合,并展示了 State-of-the-art 的图像质量和样本多样性,同时具备快速学习和更好的数据效率。
Mar, 2021
本文提出了一种基于生成对抗网络的场景生成框架,通过显式控制场景的背景和前景的生成器生成多样化的图像并更好的应对仿射变换和前景物体的遮挡等问题。
Feb, 2019
本文提出 Composition-by-Decomposition 网络,采用两个独立分布的物体生成具有真实纹理和形状的合成图像,以此捕捉多物体之间的空间相互作用关系,从而在生成场景方面获得更好的效果。
Jul, 2018
本文提出了 Text2Scene 模型,该模型从自然语言描述中生成各种形式的组成场景表示。与最近的其他工作不同,Text2Scene 不使用生成对抗网络(GANs),而是通过依次生成对象和它们的属性来学习生成场景,从而实现生成各种形式的场景表示,包括卡通样式的场景、与真实图像相对应的对象布局和合成图像。该方法不仅能够胜任与基于 GAN 的最先进方法相竞争的工作,而且其结果可以被解释。
Sep, 2018
提出了 Styleformer,这是一种基于 transformer 的 GAN 生成器,其结构不依赖于卷积操作,并修改了现有的 transformer 结构,使其生成高质量的图像,可以在 CIFAR-10 和 LSUN-church 等数据集上实现可比较的性能,并在 STL-10 和 CelebA 上实现了新的最先进水平。
Jun, 2021
通过使用 transformers 的自我关注机制来生成室内场景,使得场景的生成速度更快、逼真程度更高,并且方法还具有更高的灵活性,可以根据不同条件进行调整。
Dec, 2020
该论文通过引入基于 transformers 的新型结构 TransGAN, 从而实现在图像生成任务中不使用卷积神经网络,其中,使用 grid self-attention 模块来缓解内存瓶颈,并通过数据扩增、修正归一化和相对位置编码等一系列技术缓解了训练不稳定问题。该模型在高分辨率图像生成上取得了极具竞争力的表现,并且在 STL-10 数据集上创造了 10.43 的 Inception Score 和 18.28 的 FID 值。
Feb, 2021