使用 Transformer 进行高分辨率复杂场景合成
结合卷积神经网络与 transformers 模型的特点,实现了生成高分辨率图像的任务,并取得了 ImageNet 中类别有条件下的自回归模型的最优结果
Dec, 2020
本文介绍一种基于布局和风格的生成对抗网络 [LostGANs] 的架构,能够从可重构的布局和风格中生成图像,实现了多物体样式生成,并在 COCO-Stuff 数据集和 Visual Genome 数据集上实现了最先进的性能。
Aug, 2019
该论文提出了一种新的范例 (layout-to-mask-to-image) 来实现从给定布局生成物体掩膜的任务,给出了一种通过实例感知和布局感知归一化来实现物体掩膜水平的风格控制,使用生成对抗网络 (GANs) 在两个控制水平上进行风格控制的方法,并在 COCO-Stuff 数据集和 Visual Genome 数据集上获得了最新成果。
Mar, 2020
该研究提出了一种高分辨率稀疏注意力模块和一个生成器架构,可以在语义标签映射的基础上,有效地实现将输入图像的视觉细节转移至新布局。实验证明,该方法在图像修补和布局操作方面的性能得到了大幅提高。
Dec, 2020
本文提出了一种基于 Transformer 和局部注意力机制的图片生成模型,相较于 CNN 和一些 Transformer 方法,该模型在复杂场景下的生成表现更加优秀,且提高了数据使用效率。
Jun, 2022
使用条件生成对抗网络(conditional GANs)从语义标签图中合成高分辨率照片般真实的图像,并通过使用新的对抗性损失、多尺度生成器和鉴别器体系结构,生成 2048x1024 的视觉吸引力结果。此外,我们将我们的框架扩展到与两个额外功能的交互式视觉操作,它们是:将对象实例分割信息整合进去以进行对象操作(如删除 / 添加对象和更改对象类别),以及提出一种方法,可以在给定相同输入的情况下,生成不同的结果,允许用户交互式地编辑对象外观。人的意见研究表明,我们的方法在深层图像合成和编辑方面的质量和分辨率方面都显着优于现有方法。
Nov, 2017
提出了一种基于 Transformer 的生成对抗网络(SRTransGAN)来进行图像超分辨率,通过使用编码器 - 解码器网络生成 2x 图像和 4x 图像,使用视觉 Transformer 设计判别器网络来对合成和真实高分辨率图像进行二分类,通过分析显著性地图来了解所提方法的学习能力,SRTransGAN 方法在 PSNR 和 SSIM 评分的平均值上优于现有方法 4.38%。
Dec, 2023
本文提出一种基于分块离散余弦变换(DCT)块的生成模型,使用 Transformer-based 自回归模型对块进行预测,以生成高质量、多样化的图像,并展示了对于简单的改进,该方法在图像着色和高精度图像放大方面也具有有效性。
Mar, 2021
通过引入局部关注机制、融合全局关注和局部关注机制、以及自动编码训练和自回归生成策略,提出了一种高分辨率图像生成的高效两阶段框架,实现了更高效率、更好的重建质量和更高分辨率的图像合成。
Oct, 2023