Oct, 2022

QuaLA-MiniLM:一种量化长度自适应 MiniLM 模型

TL;DR使用 Length Adaptive Transformer 和 MiniLM distillation 加上低位量化技术,我们设计出一个高效的模型 QuaLA-MiniLM,在 SQuAD1.1 数据集上达到 x8.8 个速度提升且不到 1% 的精度损失。