Apr, 2024

大型语言模型的无损加速通过自适应 N-gram 并行解码

TL;DR通过引入自适应 N-gram 并行解码(ANPD),我们提出了一种创新的无损方法,可以在保持性能的同时加速推理。ANPD 采用两阶段方法,通过一种快速草稿阶段和验证阶段,使生成多个标记成为可能,从而提高处理速度并减少推理延迟。ANPD 消除了重新训练或额外 GPU 内存的需求,使其成为一种高效的即插即用增强技术。在实验中,LLaMA 等模型的速度改进达到了 3.67 倍,验证了我们提出的 ANPD 方法的有效性。