COLINGMay, 2024

以 LLM 为基础通过并行解码词汇单元实现思考速度解码

TL;DR通过引入词汇单元解码(LUD)方法,本文在不牺牲输出质量的情况下加速解码过程,有效减少生成速度而仍保持生成质量,并提出 LUD 可能为未来的语言模型定义一种新的解码范式,提升其应用的适用性。