Swin Transformers 中的 N-Gram 用于高效轻量级图像超分辨率
本论文通过交替聚合局部全局特征,引入了位移卷积实现局部空间信息和通道信息的交互,并提出了块稀疏全局感知模块以进一步实现空间和通道信息的交互。同时,引入了多尺度自注意模块和低参数残差通道注意模块,实现了不同尺度上的信息聚合。在五个公开数据集上验证了提出的网络,在超分辨率方面超过了其他最先进的网络。
Dec, 2023
本文提出了一种新的视觉 Transformer,称为 Swin Transformer,它在计算机视觉领域中作为通用骨干具有很强的能力,包括图像分类和目标检测。Swim Transformer 的层次设计和移位窗口方法对于所有多层感知器架构也证明是有益的,并且模型和代码是公开的。
Mar, 2021
本文采用 Swin Transformer V2 来改善图像超分辨率问题,特别是针对压缩输入情况,通过实验验证 Swin2SR 方法能显著提高 SwinIR 的性能。
Sep, 2022
本研究提出了一种基于 Swin Transformer 的强基线模型 SwinIR,用于图像恢复,通过对三种典型任务进行实验(图像超分辨率、图像降噪和 JPEG 压缩),实验结果表明,SwinIR 在不同任务上的表现比最先进的方法提高了至多 0.14~0.45dB,同时可以将参数总数减少高达 67%。
Aug, 2021
本文介绍了一种基于 Transformer 的方法,用于图像恢复,提出了一种名为 SwinFIR 的扩展方法,旨在提高捕捉全局信息的效率,同时改进了数据增强、预训练、特征集成等高级技术,使模型的性能得到显着提高,并在多个大型基准测试上取得了最先进的性能。
Aug, 2022
本文研究探索类似于 pure transformers 的 GAN 架构来进行高分辨率图像合成,并提出了基于 Swin transformer 和本地化的 Local Attention 的 StyleSwin 生成器。在高分辨率合成过程中,采用双重注意力机制来改善生成质量、有效地抑制块状伪影,并证明了 transformers 在高分辨率图像生成方面的可用性。
Dec, 2021
本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。
Nov, 2021
这篇论文通过引入卷积非局部稀疏注意力块(NLSA)来扩展混合变压器架构,以进一步增强其感受野,并使用小波损失来训练变压器模型以改善定量和主观性能。实验结果表明,提出的模型在各种基准数据集上提供了最先进的峰值信噪比结果以及更好的视觉表现。
Apr, 2024
通过引入自适应记号字典到 SR Transformer 并建立 ATD-SR 方法来解决单图像超分辨率问题,进一步通过基于类别划分的自注意机制提升输入特征,实验证明该方法在多个单图像超分辨率基准测试中达到最佳性能。
Jan, 2024
本研究提出了一种新的改进 Transformer 模型的方法,使用了文本序列中的离散潜在表示构造 n-gram,并应用于语言建模和文本分类中,经实验证明性能优于传统的 Transformer 模型和 Primer,该模型已在 Jax 中开源以便复现。
Jul, 2022