稠密视觉Transformer的选择性特征适配器
本文提出了稠密视觉Transformer(dense vision transformers)作为密集预测任务的主干网络,相对于全卷积网络,该结构以恒定和较高的分辨率处理表示,并在每个阶段具有全局感受野。在单眼深度估计和语义分割任务上,我们的实验表明,该结构在有大量训练数据的情况下能够显着提高性能,是一种大有前途的新型神经网络结构。
Mar, 2021
通过将Transformer模型逐步转化为基于卷积的模型,进行经验证实验表明,命名为Visformer的新架构比Transformer模型和卷积模型在ImageNet分类准确性方面表现更佳,尤其是当模型复杂度较低或者训练集较小时。
Apr, 2021
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决Vision Transformer (ViT)在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中ViT-Adapter-L模型在不使用额外数据的情况下,在COCO test-dev数据集上实现了state-of-the-art的性能。
May, 2022
提出了一种叫做“AdaptFormer”的方法,可将预训练的视觉Transformer模型快速适应于多个图像和视频识别任务中,在不更新原预训练参数的情况下,只增加不到2%的额外参数,就能显著提高模型的可迁移性和表现
May, 2022
透過將輕量級適配器插入凍結的預訓練模型並使用低精度量化方法以減少存儲空間,本研究發現低精度的適配器達到與高精度適配器相當的性能,且1位精度就足夠。
Jul, 2023
利用自适应细粒度的全局自注意力,SG-Former模型通过重分配代币实现了高性能,其基本模型在ImageNet-1K上达到了84.7%的Top-1准确率,在CoCo上达到了51.2mAP的bbAP,在ADE20K上达到了52.7mIoU的准确率,超过了Swin Transformer模型,而计算成本和参数较少。
Aug, 2023
高容量预训练模型的出现改变了计算机视觉中的问题解决方式,专注于训练特定任务的模型转变为调整预训练模型,因而有效地将大型预训练模型适应下游任务成为一个重要的研究领域;本研究提出了一种新颖的适配器重组(ARC)策略,从新的角度解决了高效预训练模型的适应问题,通过考虑适应参数的可重用性并引入参数共享方案,通过利用对称的下-/上映射构建瓶颈操作从而实现层间参数共享,通过学习低维度的重新缩放系数,可以有效地重新组合层自适应的适配器,这种参数共享策略在适配器设计中允许显著减少新参数数量,同时保持令人满意的性能,从而提供了一种有前景的压缩适应成本的方法,通过在24个下游图像分类任务上使用各种Vision Transformer变种进行实验以评估我们的方法,结果表明我们的方法在减少参数数量的同时实现了令人信服的迁移学习性能。
Oct, 2023
通过引入适配器逐步减小其尺寸的方法,我们提出了MiMi训练框架,该框架能够在降低计算和存储成本的同时保持高性能,通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度,我们的方法在三个数据集基准DomainNet、VTAB和Multi-task上优于现有方法,寻找准确性和训练参数之间的最佳权衡。
Nov, 2023
Adapter-X是一种新的框架,通过参数共享和动态分配,以及引入特定设计来提高适应性,在更少的参数下优于传统的微调方法。
Jun, 2024
本文提出了一种新的架构——big.LITTLE视觉变换器,旨在解决高效视觉识别的问题。该研究通过动态推理机制,使关键token由高性能模块处理,而低价值token则由高效模块处理,从而显著降低计算负荷,同时保持模型的整体性能。实验结果表明,该架构在大规模视觉识别任务中实现了高准确性和显著的计算节省,展示了混合模型在优化计算与性能方面的潜力。
Oct, 2024