BriefGPT.xyz
Ask
alpha
关键词
recursive speculative decoding
搜索结果 - 1
递归推测解码:通过无替换抽样加速 LLM 推理
递归推测解码是一种基于树的方法,利用抽样生成多样性的草稿令牌序列来加速大型语言模型,从而在固定的草稿序列长度和计算预算下取得了优越性能。
PDF
5 months ago
Prev
Next