使用可学习记忆调优图像Transformer

Mar, 2022

使用可学习记忆调优图像Transformer

Fine-tuning Image Transformers using Learnable Memory

Mark Sandler, Andrey Zhmoginov, Max Vladymyrov, Andrew Jackson

TL;DR该研究提出使用可学习的记忆令牌来增强视觉Transformer模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即“记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Abstract

In this paper we propose augmenting vision transformer models with learnable memory tokens. Our approach allows the model to adapt to new tasks, using few parameters, while optionally preserving its capabilities

发现论文，激发创造

将卷积结构融入视觉Transformer

本论文提出了一种结合卷积神经网络和Transformer的新型算法Convolution-enhanced image Transformer (CeiT)，在ImageNet和七个下游任务中实现了与先前Transformer和目前最先进的卷积神经网络相当的效果，而无需大量训练数据和额外的卷积神经网络教师，同时具有更好的收敛性和更低的训练成本。

Mar, 2021

通过细粒度流形蒸馏学习高效视觉Transformer

本文提出了一种基于细粒度流形知识蒸馏的方法，旨在减少以往视觉变换器的计算量，并在ImageNet-1k分类基准测试中实现了76.5％的高水平准确性。

Jul, 2021

视觉Transformer的参数高效模型适应

本文研究了视觉变换器的参数高效模型适应策略，提出了一种基于局部内在维度的参数高效模型适应框架，并通过实验比较了不同方法在各项指标下的表现。结果表明，该框架在少样本下的20个图像分类数据集和全样本下的7个图像分类数据集上，在准确性和参数效率之间的平衡上表现最佳。

Mar, 2022

可逆视觉Transformer

本文介绍一种内存高效的Reversible Vision Transformer架构设计，将模型深度与GPU内存需求解耦，能够通过有效地内存使用扩展架构。在图像分类、物体检测和视频分类等多个任务中进行了广泛基准测试，表明可实现模型复杂度、参数和准确性基本相同的情况下，内存占用减少了多达15.5倍，Reversible Vision Transformers是硬件资源有限培训方案的高效支撑，为更深的模型提供了更快的吞吐量。

Feb, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Aug, 2023

视觉Transformer需寄存器

提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算，从而修复监督和自监控模型的问题，实现密集视觉预测任务的自监控视觉模型的最新技术，使用更大模型进行对象发现，为下游视觉处理提供更平滑的特征图和注意力图。

Sep, 2023

通过掩码微调来弥合标记剪枝和完全预训练之间的差距

采用蒙版微调为动态视觉转换器的静态预训练基础模型提供更好的初始化，以提高准确性并增强其对遮挡的鲁棒性和对信息丢失的抵抗能力。

Oct, 2023

一张图像胜过16x16贴片：研究基于单个像素的Transformer模型

本研究发现在计算机视觉体系结构中的归纳偏置——局部性的必要性存在疑问，可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。

Jun, 2024

视觉变压器的参数高效和内存高效调优：一种解耦方法

通过参数高效的迁移学习和预训练知识的利用，以轻量级的任务特定查询来提取对下游任务有用的特征，并通过自定义分类头进行预测，从而实现在训练中的有限内存使用，表现出了在内存约束条件下的最新成果。

Jul, 2024

高效视觉变换器微调的自适应层选择

本研究解决了视觉变换器(ViTs)微调过程资源消耗高的问题，提出了一种名为ALaST的高效微调方法。该方法通过自适应评估各层的重要性，精确分配计算预算，显著提高了微调效率，减少了训练时间、计算量和内存负担。研究显示，使用此方法能够在保持性能的同时，训练时间缩短达1.5倍，计算量和内存减少均可达2倍。

Aug, 2024