BriefGPT.xyz
Ask
alpha
关键词
llm deployment
搜索结果 - 3
边缘计算中无线 LLM 推理的自适应分层切割:基于模型的强化学习方法
通过模型驱动的强化学习方法,该研究在边缘计算环境中最优化部署大型语言模型,提高隐私和计算效率,减少计算成本,并在分散式环境中实现了推理性能和计算负载的平衡。
PDF
a month ago
Transformer-Lite: 在手机 GPU 上高效部署大型语言模型
为了在移动设备上高效部署大型语言模型,我们提出了四种优化技术:基于符号表达式的动态模型推断,操作符优化和执行优先级设置,FP4 量化方法以减少反量化开销,以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求,并利用这些方法实现了移动推断
→
PDF
3 months ago
IJCAI
更快、更轻的 LLM:关于当前挑战和前进方向的调查
调查了 LLMs 的压缩方法和系统级优化方法,提出实验评估结果和改进方向,为高效 LLM 部署提供了实用见解。
PDF
5 months ago
Prev
Next