AdaViT: 自适应视觉Transformer用于高效图像识别
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文研究了发展高效的自监督视觉变换器(EsViT)的两种技术,第一,我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性,但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二,我们提出了新的预训练任务区域匹配,允许模型捕捉细粒度区域依赖性,从而显着提高了学习到的视觉表示的质量。我们的结果表明,结合这两种技术,EsViT在ImageNet线性探针评估中达到81.3%的top-1,超过以前的艺术水平,吞吐量大约高一个数量级。在转移到下游线性分类任务时,EsViT在18个数据集中的17个数据集上优于其受监督的对应物。代码和模型可公开获取:该URL。
Jun, 2021
本篇论文提出了一种PSViT视觉变换器,通过令每个transformer层与其相邻层共享注意力映射和减少空间级别上的特征数量来降低冗余,实现更好的速度和准确性
Aug, 2021
提出了一种自适应调整视觉转换器(ViT)推理成本的方法A-ViT,该方法基于自适应计算时间(ACT)重新表述,在不修改网络架构或推理硬件的情况下,通过自动减少处理网络的视觉转换器中的令牌数来实现此目标,并对图像分类任务性能得到了显著改进。
Dec, 2021
本文提出Dual Attention Vision Transformers (DaViT)网络,该网络通过自我注意机制能够捕获全局信息,同时保持计算效率,并在图片分类任务上取得了最先进的表现。
Apr, 2022
对视觉Transformer及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现ViT在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力-CNN模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS与训练内存之间存在强正相关性。
Aug, 2023
通过生成式架构搜索,通过掩蔽单元注意力和Q池设计模式创建高效分层视觉Transformer体系结构设计TurboViT,相较于其他10种同等准确度的最新高效视觉Transformer网络架构设计,在ImageNet-1K数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023