BriefGPT.xyz
Ask
alpha
关键词
channel-wise shifting
搜索结果 - 1
Outlier Suppression+: 大型语言模型的等效最佳移位和缩放准确量化
提出一种 Outlier Suppression + 的框架,其中采用了 channel-wise shifting 技术和 scaling 操作用于消除 transformer 语言模型中的异常值,并通过实验表明该框架在 8 比特和 6
→
PDF
a year ago
Prev
Next