VOLO: 视觉展望者用于视觉识别

Jun, 2021

VOLO: Vision Outlooker for Visual Recognition

Li Yuan, Qibin Hou, Zihang Jiang, Jiashi Feng, Shuicheng Yan

TL;DR本研究介绍了一种新的注意力机制 - outlook attention，并提出了一个通用的神经网络架构 VOLO 来优化在 ImageNet 分类任务上基于自我注意力的视觉 transformer (ViT) 性能问题，VOLO 在没有额外训练数据的情况下，实现了 87.1％的 top-1 精度并在下游的语义分割任务中取得了良好的效果。

Abstract

Visual recognition has been dominated by convolutional neural networks (cnns) for years. Though recently the prevailing vision transformers (vits) have shown great potential of →

cnns vits self-attention fine-level features volo

发现论文，激发创造

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

更多关注视觉语言跟踪

本文介绍一种基于 ConvNets 和多模态视觉语言 (VL) 的追踪方法，通过模态混合器（ModaMixer）和不对称的 ConvNet 搜索，学习新颖的统一自适应 VL 表示，仅使用 ConvNets 能够在 SOTA 追踪中表现出色，甚至超过几个基于 Transformer 的 SOTA 追踪器。

Jul, 2022

ViTOL: 弱监督目标定位的视觉 Transformer

我们提出了一种名为 ViTOL 的方法来处理弱监督目标定位问题，在自我关注和渐变关注实现的基础上，引入了基于补丁的关注中断层 (p-ADL) 用于增加定位图的覆盖范围，并且使用基于类别的注意力图生成机制来解决类不可知的问题，并在 ImageNet-1K 和 CUB 数据集上取得了 70.47% 和 73.17% 的最新结果。

Apr, 2022

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

ViT-V-Net: 用于无监督容积医学图像配准的视觉变换器

该论文提出了一种基于 ViT 和 ConvNets 的新架构 ViT-V-Net，实现了类医学图像的体积重建。实验结果表明，该方法在图像配准任务中具有优异的性能。

Apr, 2021

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023

场景文本识别的视觉注意力模型

本文提出了一种无词典的场景图像文本识别方法，该方法基于一种基于 LSTM 的软视觉注意模型，该模型从卷积特征中学习。通过导出与图像不同区域对应的中间卷积层的一组特征向量，实现了对空间信息的编码，从而使框架能够学习如何选择性地聚焦于图像的不同部分。除此之外，我们还展示了通过将显式语言模型集成到束搜索算法中来修改改良的束搜索算法可以导致更好的识别结果，以标准的 SVT 和 ICDAR'03 场景文本数据集为基础，证明了我们方法在无约束文本识别中的卓越表现。

Jun, 2017