MaxSR: 改进的 MaxViT 图像超分辨率

Jul, 2023

MaxSR: Image Super-Resolution Using Improved MaxViT

Bincheng Yang, Gangshan Wu

TL;DR提出了一种基于 MaxViT 的单图像超分辨率模型 MaxSR，通过自适应块关注和自适应网格关注来实现更好的全局自相似性建模，并取得了最新的最先进性能

Abstract

While transformer models have been demonstrated to be effective for natural language processing tasks and high-level vision tasks, only a few attempts have been made to use powerful transformer models for

transformer models single image super-resolution maxvit adaptive block attention state-of-the-art performance

发现论文，激发创造

视频超分辨率变换器

本研究采用 Transformer 对视频超分辨率问题进行了改进，引入了空时卷积自注意力层以利用数据位置信息，设计了双向光流驱动前馈层以发现不同视频帧之间的相关性并对齐特征，实验证明了这种方法的有效性。

Jun, 2021

MaxViT：多轴视觉变压器

该研究通过引入多轴关注模型和卷积等新元素，提出了一种高效且可扩展的注意力模型，即 MaxViT。利用 MaxViT 作为骨干网络，在图像分类和物体检测等任务上都取得了领先的性能。同时，该模型还证明了其在图像生成方面的潜在优势。

Apr, 2022

SRTransGAN：基于 Transformer 的生成对抗网络的图像超分辨率

提出了一种基于 Transformer 的生成对抗网络（SRTransGAN）来进行图像超分辨率，通过使用编码器 - 解码器网络生成 2x 图像和 4x 图像，使用视觉 Transformer 设计判别器网络来对合成和真实高分辨率图像进行二分类，通过分析显著性地图来了解所提方法的学习能力，SRTransGAN 方法在 PSNR 和 SSIM 评分的平均值上优于现有方法 4.38%。

Dec, 2023

具有掩码内外帧关注的视频超分辨率 Transformer

通过提出一种新颖的特征级遮蔽处理框架 MIA-VSR，本文解决了 Vision Transformer 在受限设备上应用的计算负担和内存占用过大的问题，并通过详细的消融研究验证了方法的有效性和与最新技术的比较结果。

Jan, 2024

激活图像超分辨率中更广阔的区域

本文介绍了使用 Vision Mamba 模型在单图超分辨率 (SISR) 领域中提高性能的方法，并通过引入 MMA 网络的综合实验分析验证了其竞争力和灵活性，鼓励在图像处理领域中进一步探索利用状态空间模型的潜力。

Mar, 2024

学习纹理转换网络用于图像超分辨率

本文提出了一种基于注意机制的纹理转换神经网络（TTSR），采用 DNN 可学习的纹理提取器、相关嵌入模块、用于纹理传输的硬注意力模块，并且结合 LR 和 Ref 图像进行联合特征学习，从而实现图像的纹理恢复。经过广泛实验，TTSR 在定量和定性评估上都取得了显著改进。

Jun, 2020

PTSR：图像超分辨率的补丁翻译器

提出了一种基于自注意机制的无卷积操作的转化器和生成对抗网络（GAN）网络 —— 补丁翻译器用于图像超分辨率，实验证明该网络在超分辨率上的性能得到了显著提升。

Oct, 2023

超越局部窗口的限制：自适应令牌字典的先进超分辨率变换器

通过引入自适应记号字典到 SR Transformer 并建立 ATD-SR 方法来解决单图像超分辨率问题，进一步通过基于类别划分的自注意机制提升输入特征，实验证明该方法在多个单图像超分辨率基准测试中达到最佳性能。

Jan, 2024

基于 Transformer 的选择性超分辨率用于高效图像精炼

通过将图像分割为不重叠的图块、使用金字塔结构选择感兴趣的图块，并利用深度特征仅重构这些选定的图块，我们提出了一种新颖的基于变压器的算法 Selective Super-Resolution（SSR），解决了常规超分辨率方法在放大整个大图像时的巨大计算成本和在背景细化过程中引入额外或可能有害信息的两个缺点。实验证明，我们的方法在超分辨率方面具备效率和稳健性，在 BDD100K 数据集上与最先进的方法相比，FID 评分从 26.78 降低到 10.41，计算成本减少了 40%。源代码可在此 https URL 获得。

Dec, 2023

MaxViT-UNet: 医学图像分割的多轴注意力

提出了 MaxViT-UNet，一种基于编码器 - 解码器的混合视觉 Transformer，用于医学图像分割，其使用多轴自注意力机制实现了胞核区域的准确分割，并在 MoNuSeg 数据集上实现了比以前的 CNN only 和 Transformer only 技术更好的 Dice 指标。

May, 2023