可编织的 ViT 视觉主干网络
提出了一种 Scalable 并有效的框架来对预训练神经网络进行动态准确率 - 效率权衡的组装,该方案称为 Stitchable Neural Networks(SN-Net);该方案在 ImageNet 分类任务中取得了与已训练网络相当甚至更好的表现,并支持多种部署场景。
Feb, 2023
StitchNet 是一种新的神经网络创造范例,它能够将来自多个预训练神经网络的碎片(一个或多个连续的网络层)拼接在一起,使用 CKA 作为兼容性度量,以在特定的精度需求和计算资源限制下,有效地指导这些数据片段的选择,并实现可与传统训练网络相媲美的精度,同时使用计算资源和数据量的一小部分,从而探索了一种新的即兴个性化模型创建和推断应用。
Jan, 2023
通过 Learngene Pool 方法,将 Stitchable Neural Networks (SN-Net) 中存在的挑战解决,从而在低资源约束条件下构建小型和可变尺寸的模型,进一步提升性能。
Dec, 2023
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度 - MAC 和精度 - 吞吐量权衡。
Sep, 2021
本篇研究提出了一种基于 Vision Transformers 构建的简单通用的 U-ViT 架构,通过对时间、条件和噪声图像块等所有输入采用标记方法,并在浅层和深层之间采用长跳过连接,实现与同等大小 CNN-based 的 U-Net 相似的无条件和类条件图像生成,以及文本到图像生成任务的优化,具有不错的 FID 得分。该研究结果表明,对于基于扩散的图像建模,长跳过连接至关重要,而 CNN-based U-Net 中的下采样和上采样算子并非总是必要的。
Sep, 2022
本文提出了一种新型的多路径视觉 Transformer(MPViT),通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌,将令牌按比例分为多个分支,并对分支进行处理,从而获得丰富的、多尺度的特征表示,在各项指标上均优于当前其他前沿网络,具有广泛的应用前景。
Dec, 2021
本文介绍一种叫做 FlexiViT 的方法,能够动态改变 ViT 模型输入的 patch size 以适应不同的计算预算,从而提高计算效率和精度。通过实验发现,FlexiViT 训练的模型在分类、图像文本检索、分割等多个任务上表现良好,易于应用于大多数基于 ViT 结构的计算任务。
Dec, 2022
通过引入高度成本效益的局部全局局部(LGL)信息交换瓶颈,结合最优的自注意力和卷积,我们引入了 EdgeViTs,这是一种新的轻便 ViTs 家族,它们能够在准确性和设备效率之间的权衡中与最佳轻量级 CNNs 竞争,并优于其他 ViTs 几乎在所有情况下,证实了模型是帕累托最优的。
May, 2022
我们提出了一个通用的神经网络架构,该架构由任务无关的组件组成,实现了在 ImageNav 和 ObjectNav 任务上的最新成果,而无需任何任务特定的模块,我们的模型是基于最近的自监督学习(SSL)和视觉变压器(ViT)的预训练模型构建,在 ViT 修补表示上操作一个压缩层以保留空间信息,并改进策略训练,这些改进使我们能够首次在视觉导航任务中展现了正向编放律。
Mar, 2023