BriefGPT.xyz
大模型
Ask
alpha
关键词
hybrid quantization
搜索结果 - 2
迈向端到端基于生成型大语言模型的 4 位推理
大多数大型生成模型的推理计算可以通过将权重和激活值均转换为 4 位来加速计算,同时保持良好的准确性;我们通过名为 QUIK 的混合量化策略实现这一目标,该策略将大多数权重和激活值压缩为 4 位,将一些异常值保留在较高精度;关键是,我们的方案
→
PDF
9 months ago
基于二进制神经网络的设备上学习
现有的连续学习解决方案只在将深度学习模型部署在低功率嵌入式 CPU 上时部分地解决了功耗、内存和计算的限制。本文提出了一种连续学习解决方案,它结合了连续学习领域的最新进展和二值神经网络(BNN)的高效性,该网络使用 1 位用于权重和激活以高
→
PDF
10 months ago
Prev
Next