Aug, 2024

将垃圾变为宝藏:通过标记回收加速大型语言模型的推理

TL;DR本研究解决了大型语言模型推理延迟的问题,提出了一种新颖的标记回收方法。通过利用解码过程中生成的候选标记,构建了一个邻接矩阵,并采用广度优先搜索算法构建草稿树,从而有效提升推理速度。实验证明,此方法在各类大型语言模型上实现了约2倍的速度提升,并显著优于现有的无训练方法和训练方法。