预训练图像处理 Transformer

CVPRDec, 2020

Pre-Trained Image Processing Transformer

Hanting Chen, Yunhe Wang, Tianyu Guo, Chang Xu, Yiping Deng...

TL;DR本论文主要研究了低层级计算机视觉任务（如去噪、超分辨率和去雨等），并开发了一种新的预训练模型 —— 图像处理变压器（IPT），通过 ImageNet 基准测试产生大量的损坏图像对，训练 IPT 模型并成功地在不同的图像处理任务上产生了良好的结果。

Abstract

As the computing power of modern hardware is increasing strongly, pre-trained deep learning models (e.g., BERT, GPT-3) learned on large-scale datasets have shown their effectiveness over conventional methods. The big progress is mainly contributed to the representation ability of

deep learning models transformer computer vision task pre-trained model image processing

发现论文，激发创造

磁共振图像处理变压器的普适重建

发展和评估了一种用于常规加速磁共振成像重建的深度学习模型。

May, 2024

针对低级视觉的高效基于 Transformer 的图像预训练

本文研究预训练在图像处理系统中的作用，采用基于 Transformer 的预训练机制提高各种低级任务的性能，并设计一整套对内部表示影响的评估工具。实验证明，预训练对低级任务有着截然不同的影响，其中多任务预训练是最有效和数据高效的方法，本研究成功地开发了多种低级任务的最新模型。

Dec, 2021

预训练语言变换器是通用图像分类器

本文通过使用预训练的转换器模型提出了一种面部图像的分类方法，包括包括二进制分类、使用加密图像进行分类等，并探讨了此方法对于隐私保护机器学习的启示。

Jan, 2022

使用 Transformer 进行感知图像质量评估

本文提出了一种图像质量转换器 (IQT)，成功地将变压器架构应用于感知全参考图像质量评估 (IQA) 任务。

Apr, 2021

BEiT: 图像 Transformer 的 BERT 预训练

本研究介绍了一种名为 BEiT 的自监督视觉表示模型，使用双向编码器表示图像转换器并进行了预训练，效果显著。

Jun, 2021

IPT-V2: 高效的图像处理转换器使用层次注意力

近期的研究表明，基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而，我们的分析表明，现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系，而这对于恢复退化图像的细节和缺失内容非常关键。为此，我们提出了一种具有分层注意力的高效图像处理 Transformer 架构，称为 IPTV2，采用了一种聚焦上下文自注意力（FCSA）和全局网格自注意力（GGSA），以在局部和全局感受野中获取充分的令牌交互。具体而言，FCSA 将移位窗口机制应用于通道自注意力中，有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系，在空间维度中聚合全局信息。此外，我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明，我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果，包括去噪、去模糊、去雨等，并且在性能和计算复杂度的权衡方面获得了很大的改进。此外，我们将我们的方法扩展到图像生成作为潜在扩散的支撑，显著优于 DiTs。

Mar, 2024

Vision Transformers 三要素

本文提出了三种易于实现的视觉 Transformer 变体。第一，可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二，对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务，这节省了计算量，减少了微调时的峰值内存消耗，并允许跨任务共享大部分权重。第三，添加基于 MLP 的补丁预处理层，可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响，并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。

Mar, 2022

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

预训练的 Transformer 金字塔网络

本研究提出了一种基于屏蔽图像建模的完整预训练框架，统一复现与识别阶段，并通过深入的技术贡献，在图片分类、物体检测和语义分割方面实现了新的最佳结果。

Nov, 2022

基于注意力机制的高效图像变换及蒸馏训练

通过使用注意力机制的神经网络，我们以卷积神经网络为教师，在 ImageNet 上训练单个计算机下的优秀可比拟的转换器，并引入了基于蒸馏令牌的教师 - 学生策略，以获得竞争性结果。

Dec, 2020