高分辨率 GAN 的改进变压器
为了更好的利用 Transformer 的潜力以进行图片重构,在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外,还引入了重叠交叉注意力模块并采用相同任务的预训练策略,拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。
May, 2022
在这项工作中,我们将基于自我关注机制的模型架构 ——Transformer 模型,泛化到图像生成的序列建模问题上,并通过限制自我关注机制只关注局部邻域,显著提高了模型能够实际处理的图像大小,同时在图像生成方面显著优于当前最优秀的状态,提高了 ImageNet 上最佳公布的负对数似然从 3.83 到 3.77,同时还针对大放大倍数进行了图像超分辨率实验。在人类评估研究中,我们发现,我们超分辨率模型生成的图像比先前的最优模型更能欺骗人类观察者。
Feb, 2018
我们提出了 Mansformer,它是一种结合了多种自注意力、门控和多层感知的混合加权 Transformer,通过对张量形状和维度进行精心调整,将典型的二次复杂度自注意力分解成四次线性复杂度操作,并利用类似 Squeeze-and-Excitation Networks 的架构实现了这些不同类型自注意力的自适应融合,通过提出的门控 - dconv MLP 将两阶段的 Transformer 设计合并为一阶段,主要用于图像去模糊,经过广泛的定量和定性评估,表明该方法在远远超过简单去模糊的最先进方法方面表现出色,源代码和训练模型将提供给公众。
Apr, 2024
本研究提出了多通路结构的 Transformer 模型,实现局部到全局的多粒度特征推理,相较于现有的分层设计模型,在增加了极小的计算量的同时,在图像分类和语义分割任务上取得了显著的提高。
Jul, 2021
本文提出了一种新颖的混合多轴聚合网络(HMA),通过叠加残差混合 Transformer 块(RHTB)和网格注意力块(GAB),在超分辨率视觉任务中充分利用特征潜力信息,并通过实验验证了该模型的有效性。
May, 2024
Transformer-based methods have limitations in utilizing input information, so a Hybrid Attention Transformer (HAT) is proposed to improve restoration tasks by combining channel attention and window-based self-attention schemes.
Sep, 2023
使用自适应网格细化方法 (Adapative Mesh Refinement, AMR) 可以作为图像细分的预处理步骤,基于图像细节自适应地划分图像补丁,从而减少传给模型的补丁数量。该方法与任何基于注意力的模型无缝地配合使用,能够在实际病理数据集上展示出优于现有技术的分割质量,并在分辨率高达 64K²,最多 2048 个 GPU 的情况下获得 6.9 倍的几何平均加速。
Apr, 2024
通过引入局部关注机制、融合全局关注和局部关注机制、以及自动编码训练和自回归生成策略,提出了一种高分辨率图像生成的高效两阶段框架,实现了更高效率、更好的重建质量和更高分辨率的图像合成。
Oct, 2023
本文探讨了 Transformer 网络架构在医学图像分割任务中的可行性,并提出了一种 Gated Axial-Attention 模型和 Local-Global 训练策略以提高模型性能。实验表明,在三组不同的医学图像数据集上,该 Medical Transformer 模型优于卷积和其他相关的 Transformer-based 架构。
Feb, 2021
该论文通过引入基于 transformers 的新型结构 TransGAN, 从而实现在图像生成任务中不使用卷积神经网络,其中,使用 grid self-attention 模块来缓解内存瓶颈,并通过数据扩增、修正归一化和相对位置编码等一系列技术缓解了训练不稳定问题。该模型在高分辨率图像生成上取得了极具竞争力的表现,并且在 STL-10 数据集上创造了 10.43 的 Inception Score 和 18.28 的 FID 值。
Feb, 2021