BriefGPT.xyz
Ask
alpha
关键词
attention states
搜索结果 - 1
模块化注意力复用技术用于低延迟推理
使用 Prompt Cache 方法,可以通过在不同的大型语言模型提示之间重复使用注意力状态来加快推理速度。这种方法通过预先计算和存储输入提示中经常出现的文本段的注意力状态,以在用户提示中高效地重用它们。在多个大型语言模型上的评估显示,Pr
→
PDF
8 months ago
Prev
Next