BriefGPT.xyz
Ask
alpha
关键词
gobo
搜索结果 - 1
GOBO: 基于量化的注意力自然语言处理模型,实现低延迟和高能效推断
GOBO 是一种模型量化技术,将当前 BERT 模型的大部分参数从 32 位浮点数压缩到 3 位,无需调整或重新训练即可同时保持其准确性,在硬件上可用于内存压缩和流量减少.
PDF
4 years ago
Prev
Next