Dec, 2023
Lookahead: 大型语言模型的推理加速框架,保持生成准确性
Lookahead: An Inference Acceleration Framework for Large Language Model with Lossless Generation Accuracy
Yao Zhao, Zhitian Xie, Chenyi Zhuang, Jinjie Gu
TL;DR该研究论文介绍了一种加速检索和生成过程的通用框架,通过引入多分支策略和基于 Trie 的检索过程,实现了 Retrieval-Augmented Generation 系统的推理速度的显著提升。