May, 2020

GOBO: 基于量化的注意力自然语言处理模型,实现低延迟和高能效推断

TL;DRGOBO 是一种模型量化技术,将当前 BERT 模型的大部分参数从 32 位浮点数压缩到 3 位,无需调整或重新训练即可同时保持其准确性,在硬件上可用于内存压缩和流量减少.