BriefGPT.xyz
Ask
alpha
关键词
hardware performance
搜索结果 - 4
硬件感知并行提示解码用于 LLM 推理的内存高效加速
提出一种新颖的并行提示解码方法,仅需 $0.0002$% 的可训练参数,在 16 小时内可在单个 A100-40GB GPU 上进行高效训练,大大提高多令牌生成的接受率以及未来时间步骤的输出生成速度。
PDF
a month ago
基于定点计算阵列的 DNN 加速器激活错误可靠性探索
本文提出了一种全面的方法,用于探索和评估量化对模型准确性、激活故障可靠性和硬件效率的三方面影响。通过各种量化感知技术、故障注入和硬件实现,实现了全自动化的框架,并提出了一种轻量级保护技术,以确保最终基于系统阵列的 FPGA 实现的可靠部署。
→
PDF
6 months ago
ZeroQuant-HERO: W8A8 变换器的硬件增强鲁棒优化后训练量化框架
Quantization techniques for deep neural network inference, specifically ZeroQuant-HERO framework, optimize memory bandwi
→
PDF
8 months ago
面向硬件高效块设计的算术强度平衡卷积
本文提出了算法强度平衡卷积 (ABConv) 以解决使用小空间大小进行卷积时整体强度受到限制的问题,并在不牺牲准确性的前提下显著降低了延迟。测试了其在各种配置中的延迟和硬件性能,并将其用于 CIFAR100 的图像分类。
PDF
a year ago
Prev
Next