May, 2023

Vision Transformer 的补丁混合精度量化

TL;DR本文提出了一种基于 patch 的混合精度量化方法,用于 ViTs 神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于 ViTs 变得容易。