BriefGPT.xyz
大模型
Ask
alpha
关键词
self-speculative decoding
搜索结果 - 3
袋鼠:无损自我推测解码技术双早期退出
使用浅层子网络作为自草稿模型,采用早期停止方式提高令牌接受率,Kangaroo 算法在大型语言模型中实现了加速,并通过 Spec-Bench 的实验证明了其有效性。
PDF
21 days ago
层级跳过:在推断中实现早期退出和自我推测解码
通过应用层丢弃和早期退出损失的训练技术,在推理过程中加快大型语言模型的速度,并推出了一种新颖的自我推测编码解决方案,该解决方案减少了内存占用,并在不同训练任务上实现了高达 2.16 倍的加速。
PDF
25 days ago
草案和验证:通过自我推理解码实现无损大语言模型的加速
我们提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs),无需辅助模型。该方法通过两个阶段的过程来实现:草稿和验证。草稿阶段以稍低质量但更快的速度生成草稿标记,通过在草稿期间选择性跳过某些中间层来实现。然后,验证阶段使用
→
PDF
8 months ago
Prev
Next