BriefGPT.xyz
大模型
Ask
alpha
关键词
throughput increase
搜索结果 - 3
ASC:深度神经网络自适应尺度特征图压缩
深度学习加速器的性能受到特征映射大小的限制,提出了一种自适应缩放特征映射压缩技术,通过利用特征映射的独特性质,采用独立通道索引和块状形状,以适应本地相关性,通过可切换的端点模式和自适应缩放插值来优化压缩,并且硬件设计最小化了面积成本,通过调
→
PDF
7 months ago
SmoothQuant+: 精确高效的 LLM 后训练 4 位权重量化
提出了 SmoothQuant + 方法,它是一种准确而高效的 4 位权重量化方法,能够无损地减小大语言模型的内存开销,并且在精确度上没有损失。通过 SmoothQuant+,Code Llama-34B 模型能够在一张 A100 40GB
→
PDF
7 months ago
使用新的执行算法,以恒定内存训练大型神经网络
本研究提出一种名为 L2L 的新型执行技术,使用 16GB V100 设备可以在单个 16GB V100 和 512GB CPU 内存的机器上承载高达 50 亿个参数的模型,相比现有方法,减少了 45%的内存使用量并提高了 40%的吞吐量,
→
PDF
4 years ago
Prev
Next