参数高效微调无灾难性遗忘的自监督视觉迁移模型
该论文提出了一种名为Visual Prompt Tuning(VPT)的高效且有效的调整大规模Transformer模型的替代方案,相较于 fine-tuning,VPT仅在输入空间中引入很少的可训练参数,通过在广泛的下游识别任务上的实验,我们发现VPT在许多情况下甚至比全尺寸fine-tuning更加优秀,同时减小了每个任务的存储成本。
Mar, 2022
该研究提出使用可学习的记忆令牌来增强视觉Transformer模型,使其适应新任务,使用较少的参数,同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量,即“记忆令牌”,提供对特定数据集有用的上下文信息。该模型的准确性,通过每层只增加少量记忆令牌来显着改善,表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法,使其能够扩展到新的下游任务,模型可在小的增量成本下同时执行旧任务和新任务。
Mar, 2022
本文研究了视觉变换器的参数高效模型适应策略,提出了一种基于局部内在维度的参数高效模型适应框架,并通过实验比较了不同方法在各项指标下的表现。结果表明,该框架在少样本下的20个图像分类数据集和全样本下的7个图像分类数据集上,在准确性和参数效率之间的平衡上表现最佳。
Mar, 2022
Visual Prompt Tuning (VPT) 是一种有效的方法,用于适应预训练的 Vision Transformers(ViTs) 到下游任务,我们通过插入适当的 prompt token 可以提高其效果,同时我们也提出了一种可以为每个 ViT block 学习对应的 gate,以调整其对 prompt tokens 的影响,最终在 FGVC,VTAB 和 ADE20K 数据集上表现出更好的性能。
Jun, 2023
通过引入适配器逐步减小其尺寸的方法,我们提出了MiMi训练框架,该框架能够在降低计算和存储成本的同时保持高性能,通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度,我们的方法在三个数据集基准DomainNet、VTAB和Multi-task上优于现有方法,寻找准确性和训练参数之间的最佳权衡。
Nov, 2023
现有的参数高效微调(PEFT)方法通过提高参数效率,在视觉变换器(ViTs)适应中取得了显著的成功,然而,在适应过程中改善推理效率的探索仍未充分开展,这限制了预训练ViT模型的广泛应用,特别是在计算上耗费较多的情况下。在本文中,我们提出了一种名为动态调整(DyT)的新方法,来改善ViT适应的参数和推理效率。具体而言,除了使用轻量级适配器模块外,我们还提出了一个标记分发器,用于区别信息丰富的标记和不重要的标记,从而使后者动态跳过原始块,减少推理过程中的冗余计算。此外,我们探索了多种设计变体以找到DyT的最佳实践。最后,受混合专家(MoE)机制的启发,我们引入了一个增强的适配器以进一步提高适应性能。我们在包括图像/视频识别和语义分割在内的各种任务中验证了DyT。例如,在VTAB-1K基准测试中,DyT在触发71%-85%的FLOPs的情况下实现了与现有PEFT方法相当或甚至更优越的性能。
Mar, 2024
Sparse-Tuning是一种新的调优范式,通过稀疏保存信息标记并合并冗余标记,提高对前景的关注并降低背景区域的计算成本,实现了对预训练的ViT模型进行高效的微调和推断,同时具备了现有方法无法满足的GPU内存和时间效率要求。
May, 2024
通过使用ExPLoRA技术,在对卫星图像进行迁移学习时,只使用很少的参数数量,在无监督的预训练阶段只解冻1-2个预训练的ViT块和所有归一化层,然后通过LoRA微调所有其他层,最后只通过LoRA在新域上对模型进行微调,获得了基于先前完全训练和微调的ViTs的最先进结果。
Jun, 2024
本研究解决了视觉变换器(ViTs)微调过程资源消耗高的问题,提出了一种名为ALaST的高效微调方法。该方法通过自适应评估各层的重要性,精确分配计算预算,显著提高了微调效率,减少了训练时间、计算量和内存负担。研究显示,使用此方法能够在保持性能的同时,训练时间缩短达1.5倍,计算量和内存减少均可达2倍。
Aug, 2024
本研究针对持续学习领域中的灾难性遗忘问题,提出了一种新颖的方法——双低秩适应(DualLoRA)。该方法通过在每层中引入正交和残差LoRA适配器,结合动态记忆机制,可同时提高模型的稳定性和灵活性。在多项基准测试中,DualLoRA在准确性、推理速度和内存效率上都显著优于现有的方法。
Nov, 2024