BriefGPT.xyz
Ask
alpha
关键词
reduction in inference time
搜索结果 - 1
EMNLP
压缩上下文以增强大型语言模型的推理效率
使用选择性上下文方法(Selective Context)可以显著提高大型语言模型(LLMs)的推理效率,减少内存占用和推理时间,并在维持可比较性能的基础上实现对上下文成本的 50%降低,36%的推理内存使用率降低以及 32%的推理时间降低
→
PDF
9 months ago
Prev
Next