Nested-TNT: 多尺度特征处理的分层视觉 Transformer

Apr, 2024

Nested-TNT: 多尺度特征处理的分层视觉 Transformer

Nested-TNT: Hierarchical Vision Transformers with Multi-Scale Feature Processing

Yuang Liu, Zhiheng Qiu, Xiaokai Qin

TL;DRTransformer 在计算机视觉领域得到应用，其在自然语言处理方面表现出色，超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁，即 “视觉句子”，ViT 实现了这一目标。然而，图像所包含的信息是庞大而复杂的，仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能，TNT 模型提出了进一步划分图像为更小的补丁，即 “视觉词”，得到了更准确的结果。Transformer 的核心是多头注意力机制，传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率，我们引入了嵌套算法，并将 Nested-TNT 应用于图像分类任务。实验证实，所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%，在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。

Abstract

transformer has been applied in the field of computer vision due to its excellent performance in natural language processing, surpassing traditional convolutional neural networks and achieving new state-of-the-ar

transformer computer vision vit tnt nested-tnt

发现论文，激发创造

变形金刚中的变形金刚

本文提出了一种新的 Transformer 结构，即 Transformer iN Transformer（TNT），旨在提高图像处理中变换器的性能，通过在局部感知机制内利用可忽略计算成本的注意力机制以进一步将图像局部细化，从而在 ImageNet 基准测试中实现了 81.5% 的 Top-1 准确率，较相似计算成本的最先进的可视变换器高出 1.7%。

Feb, 2021

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

CrossViT: 跨注意力多尺度视觉 Transformer 用于图像分类

本文提出了一种名为 Dual-Branch Transformer 的模型，通过使用不同尺寸的图像块来获得更强的图像特征，进而学习多尺度特征表示，并采用交叉关注的方法进行多尺度特征的融合，使得计算复杂度得到控制，并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。

Mar, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

基于 Transformer 的端到端图像压缩和分析

本文提出了一种基于 Transformer 的端到端图像压缩和分析模型，实现云端图像分类应用，并通过两步训练策略解决了率失真精度优化问题。实验结果表明，该模型在图像压缩和分类任务中均具有有效性。

Dec, 2021

嵌套分层变压器：实现精准、数据高效和可解释的视觉理解

本文探讨了在图像块上嵌套局部 Transformer 并以层次化方式汇总它们的想法，并设计了一个简化的架构，它通过解耦特征学习和抽象过程，实现了对学习模型的可视化解释。

May, 2021

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021