Sep, 2021

理解和克服高效Transformer量化的挑战

TL;DR本文探讨了Transformer模型的量化问题,并给出了三种解决方法,其中一种基于embedding group的量化方法建立了新的量化模型,该方法可降低模型内存占用且保证了一定的精度。通过在GLUE基准测试中使用BERT,我们准确评估了这些方法的有效性,并提出了一种新的超低比特宽度的transformer权重和embedding的量化方法,以实现更大的内存节省。