卷积旁路更好的视觉 Transformer 适配器
本文提出了 Conv-Adapter,一种适用于 CV 的参数高效调整方法,通过学习特定任务的高效特征调整使得在各种分类下游任务上表现出色,且具有与传统方法相当的性能,同时适用于检测和分割任务。
Aug, 2022
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本文提出一种基于适配器的简单而强大的密集预测任务适配器,用于解决 Vision Transformer (ViT) 在密集预测中的性能较差问题,并成功应用于目标检测、实例分割和语义分割等多种密集预测任务中,其中 ViT-Adapter-L 模型在不使用额外数据的情况下,在 COCO test-dev 数据集上实现了 state-of-the-art 的性能。
May, 2022
使用 Convolution Injector(CoIn)给训练有素的 Vision Transformers(ViTs)注入富含局部性和等变性的卷积,提高其在视觉运动控制方面的适应性和性能。
Jun, 2024
通过引入适配器逐步减小其尺寸的方法,我们提出了 MiMi 训练框架,该框架能够在降低计算和存储成本的同时保持高性能,通过适配器层间神经元重要性的比较来自动估计每个适配器的隐藏维度,我们的方法在三个数据集基准 DomainNet、VTAB 和 Multi-task 上优于现有方法,寻找准确性和训练参数之间的最佳权衡。
Nov, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了名为 CvT 的新型架构,它通过将卷积引入 ViT 中实现了性能和效率的提升,并在 ImageNet-1K 上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文提出基于 adapter 的参数高效迁移学习技术,以 VL-BART 和 VLT5 为例,在图像文本和视频文本基准测试上统一多任务设置,通过权重共享提高 adapter 的效率和性能,在图像文本任务和视频文本任务中将 adapter 的使用提升至总参数的 4.18% 和 3.39%,匹配了整个模型微调的性能,同时对 adapter 与任务特定提示的组合及 V&L 预训练对 adapter 的影响进行了综合分析。
Dec, 2021
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024