预训练图像处理 Transformer
本文研究预训练在图像处理系统中的作用,采用基于 Transformer 的预训练机制提高各种低级任务的性能,并设计一整套对内部表示影响的评估工具。实验证明,预训练对低级任务有着截然不同的影响,其中多任务预训练是最有效和数据高效的方法,本研究成功地开发了多种低级任务的最新模型。
Dec, 2021
近期的研究表明,基于 Transformer 架构的方法在图像恢复方面具有强大的能力。然而,我们的分析表明,现有的基于 Transformer 的方法无法同时建立精确的全局依赖关系和局部依赖关系,而这对于恢复退化图像的细节和缺失内容非常关键。为此,我们提出了一种具有分层注意力的高效图像处理 Transformer 架构,称为 IPTV2,采用了一种聚焦上下文自注意力(FCSA)和全局网格自注意力(GGSA),以在局部和全局感受野中获取充分的令牌交互。具体而言,FCSA 将移位窗口机制应用于通道自注意力中,有助于捕捉局部上下文和通道间的相互作用。GGSA 在跨窗格中构建长距离的依赖关系,在空间维度中聚合全局信息。此外,我们引入结构重新参数化技术来改进前馈网络的模型能力。大量实验证明,我们提出的 IPT-V2 在各种图像处理任务上取得了最先进的结果,包括去噪、去模糊、去雨等,并且在性能和计算复杂度的权衡方面获得了很大的改进。此外,我们将我们的方法扩展到图像生成作为潜在扩散的支撑,显著优于 DiTs。
Mar, 2024
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本研究提出了一种基于屏蔽图像建模的完整预训练框架,统一复现与识别阶段,并通过深入的技术贡献,在图片分类、物体检测和语义分割方面实现了新的最佳结果。
Nov, 2022
通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在 ImageNet 上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师 - 学生策略,以获得竞争性结果。
Dec, 2020