CLLMs：一致性大型语言模型

Feb, 2024

CLLMs: Consistency Large Language Models

Siqi Kou, Lanxiang Hu, Zhezhi He, Zhijie Deng, Hao Zhang

TL;DR通过改进 Jacobi 解码方法，使其能够在单次迭代中准确预测多个令牌，并在任何状态下快速收敛到固定点，从而实现了在生成速度和生成质量上的显著提升。

Abstract

parallel decoding methods such as jacobi decoding show promise for more efficient LLM inference as it breaks the sequential nature of the LLM decoding process and transforms it into parallelizable computation. Ho

parallel decoding methods jacobi decoding fixed-point iteration convergence generation speed

发现论文，激发创造

自动生成巨大，快速生成：快速自回归解码的 LLM-to-SLM

我们提出了一种混合方法，结合不同规模的语言模型以提高自回归解码的效率，同时保持高性能。该方法利用一个预先训练的冻结语言模型来编码所有提示标记，然后使用生成的表示来引导一个较小的语言模型来更高效地生成响应。与 LLM 相比，我们的方法在翻译和摘要任务中实现了高达 4 倍的速度提升，但只有 1-2% 的性能损失。

Feb, 2024

通过隐藏传输进行并行解码以实现无损大型语言模型加速

大型语言模型的并行解码技术，包括隐藏状态传递、树状注意机制和加速技术等，提高了模型推理速度和生成准确性。

Apr, 2024

APAR: LLMs 可以进行自动并行自回归解码

通过并行自回归生成的方法以及与推理解码相结合，可以显著提高大型语言模型的生成速度和性能。

Jan, 2024

通过并行解码加速 Transformer 推理以进行翻译

本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构，以解决 transformers 对机器翻译的效率问题，实现了速度提高，而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试，速度提升最多可达 38％，在并行资源上实现的速度几乎达到 2 倍。同时，为了更好地理解模型的条件依赖关系和检查解码过程，提出了解码依赖图可视化器（DDGviz）

May, 2023

当线性注意力遇上自回归解码：朝着更有效和高效的线性化大型语言模型

通过结合线性注意力和推测解码，我们对现有线性注意力方法在自回归大语言模型中的功效进行了全面研究，并引入了一种增强的线性化语言模型，实验证明其在训练和生成过程中比先前的线性注意力方法更有效率。

Jun, 2024

快速的思维链：从并行解码中窥见未来，更快地得出答案

本文提出了 FastCoT，这是一个基于并行解码的模型无关框架，通过使用大小可变的上下文窗口来同时进行并行解码和自回归解码，从而充分利用 GPU 计算资源。通过广泛实验证明，FastCoT 相对于常规方法可以将推理时间缩短近 20％，而性能只有微不足道的下降。此外，研究还展示了上下文窗口大小对不同任务具有相当大的鲁棒性。

Nov, 2023

参考推理：大语言模型的无损加速

LLMA 是一种基于并行计算的 LLM 加速器，通过在一次解码步骤中选择参考文本并将其标记复制到解码器，即可实现对 LLM 的推理加速并提高计算并行性，使其在多种实际生成场景中生成结果与贪婪解码相同，达到 2 倍以上的加速。

Apr, 2023

克洛弗：基于连续知识的逐渐式轻量级猜测解码

Clover 是一种新的推理解码算法，将顺序知识融入并行解码过程中，提高了预测准确率和整体效率。实验证明，Clover 在 Baichuan-Small 和 Baichuan-Large 上分别比基准结果提高了最多 91% 和 146%，与之前效果最好的方法 Medusa 相比，在 Baichuan-Small 和 Baichuan-Large 上分别提高了最多 37% 和 57%。

May, 2024

利用前瞻解码打破 LLM 推断的顺序依赖性

使用准确并行的预读解码算法加速大型语言模型的自回归解码，从而减少总解码步骤，提高解码速度并充分发挥现代加速器的并行处理能力。

Feb, 2024

准确引导 LLMs 的快速非侵入式约束生成

为了确保大型语言模型生成的文本符合预期格式，本论文提出了一种名为 DOMINO 的创新解码算法，能够以完全子词对齐的方式执行约束，同时利用预计算和推测解码来几乎不增加开销，有时甚至实现接近 2 倍的速度优化，从而在很大程度上胜过现有方法。

Feb, 2024