GPViT：一种高分辨率非分层视觉 Transformer 模型，支持群组传播

ICLRDec, 2022

GPViT：一种高分辨率非分层视觉 Transformer 模型，支持群组传播

GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group Propagation

Chenhongyi Yang, Jiarui Xu, Shalini De Mello, Elliot J. Crowley, Xiaolong Wang

TL;DR本文提出的 Group Propagation Vision Transformer 模型是一种新颖的非分层变压器模型，旨在用于高分辨率特征的普适视觉识别，通过 Group Propagation Block 实现效率最大化，该方法在各种视觉识别任务中均取得了显著的性能提升。

Abstract

We present the group propagation vision transformer (GPViT): a novel nonhierarchical (i.e. non-pyramidal) transformer model designed for general visual recognition with →

group propagation vision transformer visual recognition high-resolution features group propagation block semantic segmentation

发现论文，激发创造

GTP-ViT：基于图卷积传播的高效视觉 Transformer

基于图的标记传播方法（GTP）通过将不重要的标记信息传播到与之相关性更大的标记上，从而在降低计算复杂度的同时保持了被剔除标记的重要信息，实现了高效的 Vision Transformers（ViTs）。

Nov, 2023

多视角组变换器与空间编码的三维形状分析

最近，基于视图的三维形状识别方法的结果已经饱和，而具有出色性能的模型由于参数规模巨大无法部署在内存有限的设备上。为了解决这个问题，我们提出了一种基于知识蒸馏的压缩方法，可以在尽可能保持模型性能的同时大大减少参数数量。

Dec, 2023

全局上下文视觉 Transformer

本文介绍了一种新的计算机视觉模型 GC ViT，核心是全局上下文自注意力模块，结合标准本地自注意力来有效地建模长程和短程空间交互关系，解决了 ViTs 的归纳偏差问题，在图像分类、对象检测和语义分割等任务中实现了新的最高性能表现。

Jun, 2022

视觉 Transformer: 从语义分割到密集预测

本研究首次探索视觉变换器（ViT）的全局上下文学习潜力以实现密集视觉预测，编码图像作为一系列补丁并学习全局上下文，使 ViT 可以捕获更强的长距离依赖信息，提出的分割转换器（SETR）在 ADE20K 和 Pascal Context 数据集上取得了出色表现，同时提出了一系列分层本地 - 全局转换器，架构由局部关注（在窗口内）和全局关注（跨窗口）构成，对于各种密集预测任务具有吸引人的性能

Jul, 2022

GroupViT：语义分割从文本监督中崛起

本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT)，能够学习将图像区域分组成任意形状的语义段，且仅依赖于文本监督，无需像素级注释，实现了零阶段语义分割任务，并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。

Feb, 2022

多尺度高分辨率视觉 Transformer 用于语义分割

HRViT 通过将高分辨率多支路结构与 Vision Transformers 相集成，探索异构分支设计，减少线性层中的冗余并增强注意力块的表现力，从而在 ADE20K 和 Cityscapes 数据集达到 50.20％和 83.16％的 mIoU 优化性能和效率，比现有的 MiT 和 CSWin 骨干框架平均提高 1.78 个 mIoU，参数节省 28％，FLOPs 减少 21％。

Nov, 2021

具有分层池化的可扩展视觉 Transformer

本研究提出了 Hierarchical Visual Transformer (HVT) 模型，通过逐步分池视觉标记以缩短序列长度降低计算成本，从而改进了图像分类任务的性能，并在 ImageNet 和 CIFAR-100 数据集上实现了与竞争基线相比更好的结果。

Mar, 2021

GvT: 一种利用稀疏性进行训练的基于图的视觉 Transformer 模型，使用自由发挥，从头开始在小数据集上训练

使用基于图卷积投影和图池化的图神经网络（GvT），并通过基于双线性池化特征和注意张量的稀疏选择的讲话头技术解决注意头降维问题，以及应用图池化来有效降低标记数量和聚合语义信息，实验结果表明 GvT 在小数据集上超越了卷积神经网络和预训练的视觉 Transformer 模型。

Apr, 2024

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023

上下文视觉转换器用于稳健表征学习

提出了一种称为 Contextual Vision Transformers (ContextViT) 的方法，能够为表现出分组结构的图像生成稳健的特征表示。该方法使用额外的上下文令牌来编码组特定信息，并将其附加到输入图像令牌中，从而使模型能够解释特定于组的协变结构，同时保持跨组共享的核心视觉特征，以提高模型对图像的泛化能力。在监督微调和自监督学习任务中均表现良好。

May, 2023