BriefGPT.xyz
大模型
Ask
alpha
关键词
low-latency inference framework
搜索结果 - 1
低延迟大型语言模型的 LiveMind:具有同时推理的特性
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提
→
PDF
14 days ago
Prev
Next