可编织的 ViT 视觉主干网络

Jun, 2023

Stitched ViTs are Flexible Vision Backbones

Zizheng Pan, Jing Liu, Haoyu He, Jianfei Cai, Bohan Zhuang

TL;DRSN-Netv2 是一种基于模型拼接的框架，能够有效地适应下游任务，并在训练效率和适应性方面均获得了很大的优势。

Abstract

Large pretrained plain vision Transformers (vits) have been the workhorse for many downstream tasks. However, existing works utilizing off-the-shelf →

vits neural networks sn-netv2 downstream tasks stitching

发现论文，激发创造

可缝合的神经网络

提出了一种 Scalable 并有效的框架来对预训练神经网络进行动态准确率 - 效率权衡的组装，该方案称为 Stitchable Neural Networks（SN-Net）；该方案在 ImageNet 分类任务中取得了与已训练网络相当甚至更好的表现，并支持多种部署场景。

Feb, 2023

高效可拼接的任务适应

通过有效的可缝合任务适应 (ESTA) 框架，我们能够以低延迟、高效率的方式生成一系列满足多样化资源限制的经过优化的模型。

Nov, 2023

StitchNet：从预训练的碎片组成神经网络

StitchNet 是一种新的神经网络创造范例，它能够将来自多个预训练神经网络的碎片（一个或多个连续的网络层）拼接在一起，使用 CKA 作为兼容性度量，以在特定的精度需求和计算资源限制下，有效地指导这些数据片段的选择，并实现可与传统训练网络相媲美的精度，同时使用计算资源和数据量的一小部分，从而探索了一种新的即兴个性化模型创建和推断应用。

Jan, 2023

通过 Learngene Pool 构建可变尺寸模型

通过 Learngene Pool 方法，将 Stitchable Neural Networks (SN-Net) 中存在的挑战解决，从而在低资源约束条件下构建小型和可变尺寸的模型，进一步提升性能。

Dec, 2023

寻找高效的多阶段视觉 Transformer 模型

利用神经架构搜索（NAS）设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS，其中融合了两个技术：残差空间缩减和权重共享 NAS，实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。

Sep, 2021

所有都值得一提：一种适用于扩散模型的 ViT 主干网络

本篇研究提出了一种基于 Vision Transformers 构建的简单通用的 U-ViT 架构，通过对时间、条件和噪声图像块等所有输入采用标记方法，并在浅层和深层之间采用长跳过连接，实现与同等大小 CNN-based 的 U-Net 相似的无条件和类条件图像生成，以及文本到图像生成任务的优化，具有不错的 FID 得分。该研究结果表明，对于基于扩散的图像建模，长跳过连接至关重要，而 CNN-based U-Net 中的下采样和上采样算子并非总是必要的。

Sep, 2022

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

FlexiViT：一模型多尺寸贴片处理

本文介绍一种叫做 FlexiViT 的方法，能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算，从而提高计算效率和精度。通过实验发现，FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好，易于应用于大多数基于 ViT 结构的计算任务。

Dec, 2022

基于 Vision Transformers 的轻量级 CNN 竞争移动设备

通过引入高度成本效益的局部全局局部（LGL）信息交换瓶颈，结合最优的自注意力和卷积，我们引入了 EdgeViTs，这是一种新的轻便 ViTs 家族，它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争，并优于其他 ViTs 几乎在所有情况下，证实了模型是帕累托最优的。

May, 2022

OVRL-V2: ImageNav 和 ObjectNav 的简单基准线

我们提出了一个通用的神经网络架构，该架构由任务无关的组件组成，实现了在 ImageNav 和 ObjectNav 任务上的最新成果，而无需任何任务特定的模块，我们的模型是基于最近的自监督学习（SSL）和视觉变压器（ViT）的预训练模型构建，在 ViT 修补表示上操作一个压缩层以保留空间信息，并改进策略训练，这些改进使我们能够首次在视觉导航任务中展现了正向编放律。

Mar, 2023