CLLMs:一致性大型语言模型
我们提出了一种混合方法,结合不同规模的语言模型以提高自回归解码的效率,同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记,然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比,我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升,但只有 1-2% 的性能损失。
Feb, 2024
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023
通过结合线性注意力和推测解码,我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究,并引入了一种增强的线性化语言模型,实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。
Jun, 2024
本文提出了 FastCoT,这是一个基于并行解码的模型无关框架,通过使用大小可变的上下文窗口来同时进行并行解码和自回归解码,从而充分利用 GPU 计算资源。通过广泛实验证明,FastCoT 相对于常规方法可以将推理时间缩短近 20%,而性能只有微不足道的下降。此外,研究还展示了上下文窗口大小对不同任务具有相当大的鲁棒性。
Nov, 2023
LLMA 是一种基于并行计算的 LLM 加速器,通过在一次解码步骤中选择参考文本并将其标记复制到解码器,即可实现对 LLM 的推理加速并提高计算并行性,使其在多种实际生成场景中生成结果与贪婪解码相同,达到 2 倍以上的加速。
Apr, 2023
Clover 是一种新的推理解码算法,将顺序知识融入并行解码过程中,提高了预测准确率和整体效率。实验证明,Clover 在 Baichuan-Small 和 Baichuan-Large 上分别比基准结果提高了最多 91% 和 146%,与之前效果最好的方法 Medusa 相比,在 Baichuan-Small 和 Baichuan-Large 上分别提高了最多 37% 和 57%。
May, 2024
为了确保大型语言模型生成的文本符合预期格式,本论文提出了一种名为 DOMINO 的创新解码算法,能够以完全子词对齐的方式执行约束,同时利用预计算和推测解码来几乎不增加开销,有时甚至实现接近 2 倍的速度优化,从而在很大程度上胜过现有方法。
Feb, 2024