COLINGMay, 2024
以 LLM 为基础通过并行解码词汇单元实现思考速度解码
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs
Chenxi Sun, Hongzhi Zhang, Zijia Lin, Jingyuan Zhang, Fuzheng Zhang...
TL;DR通过引入词汇单元解码(LUD)方法,本文在不牺牲输出质量的情况下加速解码过程,有效减少生成速度而仍保持生成质量,并提出 LUD 可能为未来的语言模型定义一种新的解码范式,提升其应用的适用性。