IPT-V2: 高效的图像处理转换器使用层次注意力

Mar, 2024

IPT-V2: 高效的图像处理转换器使用层次注意力

IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions

Zhijun Tu, Kunpeng Du, Hanting Chen, Hailing Wang, Wei Li...

TL;DR近期的研究表明，基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而，我们的分析表明，现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系，而这对于恢复退化图像的细节和缺失内容非常关键。为此，我们提出了一种具有分层注意力的高效图像处理 Transformer 架构，称为 IPTV2，采用了一种聚焦上下文自注意力（FCSA）和全局网格自注意力（GGSA），以在局部和全局感受野中获取充分的令牌交互。具体而言，FCSA 将移位窗口机制应用于通道自注意力中，有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系，在空间维度中聚合全局信息。此外，我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明，我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果，包括去噪、去模糊、去雨等，并且在性能和计算复杂度的权衡方面获得了很大的改进。此外，我们将我们的方法扩展到图像生成作为潜在扩散的支撑，显著优于 DiTs。

Abstract

Recent advances have demonstrated the powerful capability of transformer architecture in image restoration. However, our analysis indicates that existing transformerbased methods can not establish both exact global and local dependencies simultaneously, which are much critical to resto

transformer architecture image restoration global and local dependencies hierarchical attentions image processing tasks

发现论文，激发创造

如何提升图像修复中的注意力潜力？

通过连续缩放注意力（CSAttn）方法，无需使用 FFN 来进行图像恢复任务，实验证明一些简单的操作可以显著影响模型性能，并展示了 CSAttn 在图像恢复任务中优于基于 CNN 和 Transformer 的方法。

Mar, 2024

Slide-Transformer: 具有局部自注意力的分层视觉变压器

本文提出一种新颖的本地自注意力模块 Slide Attention，使用深度卷积和变形平移技术实现高效、灵活和通用的局部特征学习，适用于各种高级视觉 Transformer 模型，并在多项基准测试中实现了持续的性能改进。

Apr, 2023

局部到全局的视觉 Transformer 自注意力

本研究提出了多通路结构的 Transformer 模型，实现局部到全局的多粒度特征推理，相较于现有的分层设计模型，在增加了极小的计算量的同时，在图像分类和语义分割任务上取得了显著的提高。

Jul, 2021

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

预训练图像处理 Transformer

本论文主要研究了低层级计算机视觉任务（如去噪、超分辨率和去雨等），并开发了一种新的预训练模型 —— 图像处理变压器（IPT），通过 ImageNet 基准测试产生大量的损坏图像对，训练 IPT 模型并成功地在不同的图像处理任务上产生了良好的结果。

Dec, 2020

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

基于变压器的视频修补中利用光流指导

提出 Flow-guided transformer plus (FGT++) 模型，通过轻量级的流完成网络、流引导功能模块及时空维度分离 MHSA 机制等方式，提高视频修复的效率与效果。

Jan, 2023

ScalableViT: 重思视觉 Transformer 的面向上下文的泛化

本文提出了可扩展的自注意力机制 (SSA) 和交互窗口自注意力 (IWSA) 机制以及它们的堆叠模型 Scalable Vision Transformer (ScalableViT)，并在 ImageNet-1K 分类任务上超越了目前最先进的 Twins-SVT-S 和 Swin-T 模型。

Mar, 2022

图像超分辨率变换器中激活更多像素

为了更好的利用 Transformer 的潜力以进行图片重构，在融合通道注意力和基于窗口的自注意机制的优势的基础上提出了一种新型的 Hybrid Attention Transformer 模型。此外，还引入了重叠交叉注意力模块并采用相同任务的预训练策略，拓展模型的能力。实验证明这个模型在图片超分辨率方面的表现优于现有方法超过 1dB。

May, 2022

高分辨率 GAN 的改进变压器

本文介绍了将多维块自注意力与多层感知机结合的 Transformer 模型 HiT，该模型在高清图像生成领域的表现优于传统基于卷积的方法。

Jun, 2021