高效视觉变换器的调研:算法、技术和性能评测
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。
Aug, 2023
本研究通过评估四种主要的模型压缩技术:量化、低秩近似、知识蒸馏和剪枝,解决了视觉 Transformer 在计算和内存需求方面的问题,并全面实验评估了这些技术及其组合在资源受限环境中优化 ViTs 的功效,证明了这些方法在模型精度和计算效率之间取得了平衡,为边缘计算设备的广泛应用铺平了道路。
Apr, 2024
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
通过重新设计注意力机制,本研究对视觉变换网络(ViT)中的注意力机制进行了全面探索,以提高其性能。包括理论基础、基本概念、关注机制的系统分类以及性能评估等方面的综述。
Mar, 2024
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本文提出了一种高效的 ViT 压缩解决方案,该方法基于多头注意力层的新见解开发,可用于获得紧凑的基于注意力的视觉模型,并在图像分类任务中取得比最先进的剪枝方法更高的准确性。
May, 2023
通过生成式架构搜索,通过掩蔽单元注意力和 Q 池设计模式创建高效分层视觉 Transformer 体系结构设计 TurboViT,相较于其他 10 种同等准确度的最新高效视觉 Transformer 网络架构设计,在 ImageNet-1K 数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023
Vision Transformers (ViTs) have revolutionized computer vision, but their computational complexity and attention saturation issues limit their practical application. The Less-Attention Vision Transformer (LaViT) proposes a novel approach that reduces the number of attention operations and leverages previously calculated attention scores, resulting in superior efficiency and performance across vision tasks.
Jun, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了 ViTs 的独特架构特性、运行时特性、模型量化的基本原则,以及用于 ViTs 的最新量化技术的比较分析。此外,还探索了量化 ViTs 的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024