Oct, 2022
QuaLA-MiniLM:一种量化长度自适应 MiniLM 模型
QuaLA-MiniLM: a Quantized Length Adaptive MiniLM
Shira Guskin, Moshe Wasserblat, Chang Wang, Haihao Shen
TL;DR使用 Length Adaptive Transformer 和 MiniLM distillation 加上低位量化技术,我们设计出一个高效的模型 QuaLA-MiniLM,在 SQuAD1.1 数据集上达到 x8.8 个速度提升且不到 1% 的精度损失。