Mar, 2024

线性线性模型中的准确分块量化

TL;DR基于低精度 BFP 格式的通道重排方法在保证模型准确性的前提下,使内存占用减少 2 倍,且对推理延迟没有影响。