May, 2023

Vision Transformer的补丁混合精度量化

TL;DR本文提出了一种基于patch的混合精度量化方法,用于ViTs神经网络的高效推理,通过引入轻量级全局度量并采用帕累托前沿法自动分配最佳的位精度来减少搜索成本。实验证明这种方法大大减少了搜索成本,使混合精度量化应用于ViTs变得容易。