TransGAN：用两个纯 Transformer 构建强大的 GAN，并且可以不断拓展规模

Feb, 2021

TransGAN：用两个纯 Transformer 构建强大的 GAN，并且可以不断拓展规模

TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up

Yifan Jiang, Shiyu Chang, Zhangyang Wang

TL;DR该论文通过引入基于 transformers 的新型结构 TransGAN, 从而实现在图像生成任务中不使用卷积神经网络，其中，使用 grid self-attention 模块来缓解内存瓶颈，并通过数据扩增、修正归一化和相对位置编码等一系列技术缓解了训练不稳定问题。该模型在高分辨率图像生成上取得了极具竞争力的表现，并且在 STL-10 数据集上创造了 10.43 的 Inception Score 和 18.28 的 FID 值。

Abstract

The recent explosive interest on transformers has suggested their potential to become powerful "universal" models for computer vision tasks, such as classification, detection, and segmentation. While those attemp

transformers computer vision generative adversarial networks grid self-attention high-resolution

发现论文，激发创造

生成对抗变换器

该研究介绍了 GANformer—— 一种高效的 transformer 类型，探索其在视觉生成建模任务中的应用。它通过双分图结构实现图像间的长距离相互作用，并保持线性计算效率，能够轻松扩展到高分辨率综合，并展示了 State-of-the-art 的图像质量和样本多样性，同时具备快速学习和更好的数据效率。

Mar, 2021

使用视觉 Transformer 训练 GANs 的 ViTGAN

本文研究在生成对抗网络中引入 Vision Transformers (ViTs) 架构，并通过引入创新的正则化技术（ViTGAN）解决现有正则化方法与自注意力交互不良的问题，实验表明 ViTGAN 在 CIFAR-10，CelebA 和 LSUN 卧室数据集上表现不亚于基于卷积神经网络的 StyleGAN2 的最新成果。

Jul, 2021

SRTransGAN：基于 Transformer 的生成对抗网络的图像超分辨率

提出了一种基于 Transformer 的生成对抗网络（SRTransGAN）来进行图像超分辨率，通过使用编码器 - 解码器网络生成 2x 图像和 4x 图像，使用视觉 Transformer 设计判别器网络来对合成和真实高分辨率图像进行二分类，通过分析显著性地图来了解所提方法的学习能力，SRTransGAN 方法在 PSNR 和 SSIM 评分的平均值上优于现有方法 4.38%。

Dec, 2023

高分辨率 GAN 的改进变压器

本文介绍了将多维块自注意力与多层感知机结合的 Transformer 模型 HiT，该模型在高清图像生成领域的表现优于传统基于卷积的方法。

Jun, 2021

高效遥感分割的生成对抗变换器

通过一个高效的 Generative Adversarial Transfomer (GATrans)，采用深度学习方法和全局变换网络（GTNet）来实现高精度语义分割，在保持极高效率的同时，通过多层特征提取和结构相似性损失函数优化，获得了 90.17% 的平均 F1 得分和 91.92% 的总体准确率。

Oct, 2023

StyleSwin：基于 Transformer 的 GAN 用于高分辨率图像生成

本文研究探索类似于 pure transformers 的 GAN 架构来进行高分辨率图像合成，并提出了基于 Swin transformer 和本地化的 Local Attention 的 StyleSwin 生成器。在高分辨率合成过程中，采用双重注意力机制来改善生成质量、有效地抑制块状伪影，并证明了 transformers 在高分辨率图像生成方面的可用性。

Dec, 2021

基于 Transformer 的注意力网络用于连续像素智能预测

本文提出的 TransDepth 是一种结合了卷积神经网络和 Transformers 的像素预测模型，使用基于门的注意力机制避免了网络对局部细节的损失，并在三个具有挑战性的数据集上取得了最先进的性能。

Mar, 2021

文本到图像合成的 GAN 扩展

本文提出了一种新的 GAN 架构 GigaGAN，用于文本到图像合成，并比较了其与传统的 GANs 和 DALL-E2 的性能，结果表明 GigaGAN 可以快速且高质量地合成高分辨率图像。

Mar, 2023

使用 Transformer 进行高分辨率复杂场景合成

该论文介绍了一种基于深生成模型的图像合成方法，通过压缩和离散表示学习高频细节和纹理信息，再结合自回归转换模型生成高质量的图像。

May, 2021

C2FTrans: 用于医学图像分割的粗 - 细双向变换器

本文提出了一种新颖的多尺度架构 C2FTrans，它将医学图像分割形式化为粗 - 细过程。其中包含了一个跨尺度全局 Transformer 和一个边界感知局部 Transformer，能够在保持精细的同时降低计算复杂度，并在三个公共数据集上展现了超过现有 CNN 和基于 Transformer 的方法的表现。

Jun, 2022