专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案

Aug, 2023

专家权重平均化：一种新的用于视觉 Transformer 的通用训练方案

Experts Weights Averaging: A New General Training Scheme for Vision Transformers

Yongqi Huang, Peng Ye, Xiaoshui Huang, Sheng Li, Tao Chen...

TL;DRVision Transformers (ViTs) can be trained more efficiently using a modified Mixture-of-Experts (MoE) training scheme, where MoEs are utilized to replace certain parts of the ViT during training and converted back to the original ViT for inference, resulting in improved performance without increasing inference cost.

Abstract

structural re-parameterization is a general training scheme for Convolutional Neural Networks (CNNs), which achieves performance improvement without increasing inference cost. As →

structural re-parameterization convolutional neural networks vision transformers mixture-of-experts training scheme

发现论文，激发创造

Edge-MoE：使用 Experts 混合方法的记忆高效式多任务视觉 Transformer 架构和任务级别稀疏性

该研究提出了 Edge-MoE 的解决方案，这是第一个针对 multi-task ViT 的端到端 FPGA 加速器，其创新包括 Novel Reordering Mechanism、Fast Single-Pass Softmax Approximation、Low-Cost GELU Approximation、Unified Computing Unit 和 Novel Patch Reordering Method。较 GPU 和 CPU 相比，Edge-MoE 的能源效率分别提高了 2.24x 和 4.90x。

May, 2023

残差混合专家

本篇论文提出了一种名为 RMoE 的训练 pipeline，用于在下游视觉任务中高效地训练 MoE 视觉 transformer，该方法的核心思想是通过因式分解将 MoE 的权重分解成独立于输入的核和依赖于输入的残差两部分，从而实现了极高的训练效率。

Apr, 2022

移动版 V-MoEs：通过稀疏的专家混合缩小视觉变形器

通过使用稀疏混合专家模型将 Vision Transformers（ViTs）降低规模以适应资源受限的视觉应用，实现了性能和效率之间更好的平衡。

Sep, 2023

稀疏专家混合模型的视觉扩展

本文介绍了一种名为 Vision MoE 的稀疏版本的 Vision Transformer，在图像识别方面表现出色且需要的计算量较少。此外，本文还提出了一种路由算法的扩展来优化每个输入的处理，最终通过训练一个达到 153 亿参数的模型，V-MoE 成功实现了高度可扩展的视觉建模。

Jun, 2021

ViTAS: 视觉 Transformer 架构搜索

本文提出了 ViTAS 方法，其中使用循环权重共享机制和身份移位来解决目标嵌入的失衡问题，并辅以弱数据增强和规范化技术，以获得稳定的训练结果。实验证明，与其他常用方法相比，ViTAS 取得了极高的性能提升。

Jun, 2021

探究视觉 Transformer 在分布偏移下的泛化能力

本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题，发现其在背景和纹理上学习的偏差较弱，而对形状和结构的归纳偏差较强，因此在分布偏移情况下，相对于卷积神经网络，具有更好的泛化性能，且使用相同数量的参数，其在大多数类型的分布偏移下，比相应的 CNN 模型高出 5% 以上的准确度。此外，作者还进一步提出了增强泛化性能的 GE-ViTs，其对超参数的敏感度高于相应的 CNN 模型，因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。

Jun, 2021

M$^3$ViT: 模型加速器协同设计的专家混合视觉 Transformer，用于高效多任务学习

本篇论文针对实际应用中的系统资源限制和时间敏感性等问题，提出了一种模型加速器协同设计框架 M$^3$ViT，通过将混合专家层定制为视觉转换器后端的 MTL，只激活任务相关的稀疏专家途径，从而在单个设备上实现高效的 MTL，在单任务推理时提高了推理准确性，并减少了 88％的推理 FLOPs。

Oct, 2022

通过探索归纳偏见推动图像识别及更广泛领域的视觉 Transformer 进化 (ViTAEv2)

本文提出了一种利用先验卷积 IB（intrinsic bias）的 Vision transformer 架构（ViTAE）来解决长程依赖建模中存在的局限性，并在 ImageNet 及其他数据集上进行了实验证明其在图像分类任务上的优越性。

Feb, 2022

使用加密视觉转换器模型的随机集合增强对抗样本的安全性

本文中，我们提出了一种随机集成的加密视觉转换模型，以实现更加强健的模型，这种模型不仅对黑盒攻击更加强健，而且对白盒攻击也更加强健。

Jul, 2023

改进的 EATFormer：用于医学图像分类的视觉 Transformer

本文提出了一种基于进化算法的改进型 Transformer 架构，用于医学图像分类。该架构在 Convolutional Neural Networks 和 Vision Transformers 的基础上结合了它们的优势，利用它们在数据中识别模式和适应特定特征的能力。实验结果表明，与基准模型相比，所提出的 EATFormer 显著改善了预测速度和准确性。

Mar, 2024