Jun, 2024

SEED: 通过计划的推测解码加速推理树构建

TL;DR这篇论文介绍了 SeeD,一种新颖而高效的推理框架,以同时优化运行时速度和 GPU 内存管理。通过采用预定的推测执行,SeeD 能够高效处理思维生成和状态评估的多次迭代,利用一种按轮次预定的策略来管理草稿模型的调度。在三个推理数据集上进行的广泛实验评估表明,SeeD 具有卓越的加速性能,为训练无关的预测解码中的批量推理提供了可行的路径。