低延迟大型语言模型的 LiveMind：具有同时推理的特性

Jun, 2024

低延迟大型语言模型的 LiveMind：具有同时推理的特性

LiveMind: Low-latency Large Language Models with Simultaneous Inference

Chuangtao Chen, Grace Li Zhang, Xunzhao Yin, Cheng Zhuo, Ulf Schlichtmann...

TL;DR本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Abstract

In this paper, we introduce a novel low-latency inference framework for large language models (LLMs) inference which enables LLMs to perform inferences with incomplete prompts. By reallocating computational proce

low-latency inference framework large language models incomplete prompts response latency collaborative inference

发现论文，激发创造

LLMLingua：压缩大型语言模型推理加速的提示

LLMLingua 是一种粗粒度到细粒度的提示压缩方法，利用预算控制器、基于令牌级的迭代压缩算法和基于指令调整的语言模型分布对齐方法，实现高压缩率下语义完整性的维持，有效加速模型推理并降低成本。在多个不同场景的数据集上的实验和分析表明，该方法在性能上达到了最先进的水平，并且能够在保证性能损失很小的情况下进行高达 20 倍的压缩。

Oct, 2023

Conversational SimulMT: 大型语言模型的高效实时翻译

这篇论文提出了一种基于 LlM 的对话式 SimulMT 框架，通过多轮对话解码提高 LLM 的推理效率，在两个 SimulMT 基准测试中展示了 LLM 在翻译质量上的优越性以及与专用 SimulMT 模型相当的计算延迟。

Feb, 2024

批量提示：使用大型语言模型 API 进行高效推理

本文提出了批处理提示的简单替代提示方法，可以在批量中运行 LLM 的推理，而不是逐个样本。我们在许多数据集上验证了该方法的有效性，证明其可以同时减少时间和代币成本，并提高性能。

Jan, 2023

对话模型的节约提示

研究了使用大型语言模型建立对话系统的不同方法，并分析了对话历史的表示方式，提出了一种更紧凑的提供对话历史信息的方法，从而有效减少模型 API 的成本。

May, 2023

响应长度感知与序列调度：基于 LLM 增强的 LLM 推断管道

本文提出了一种高效的大语言模型推理流水线方法，该方法利用大语言模型的潜力来准确感知和预测响应长度，并通过引入有效的序列调度技术对响应长度相似的查询进行微批处理，从而实现了 86％的推理吞吐量的提高，同时不影响其效果。该方法是现有工具包（如 FlashAttention，Quantization）中的一个宝贵补充。

May, 2023

压缩后即提示：通过可转移提示提高 LLM 推理的准确性和效率平衡

本文介绍了一种新的压缩大型语言模型（LLM）的方法：通过使用精确的提示信息作为输入来提高压缩模型的预测准确性，以平衡其准确性和效率。研究表明，压缩 LLMs 通过这种提示学习方法能够匹配或超过原模型的准确性，这为 LLMs 的推断和扩展提供了新的可能性。

May, 2023

LongLLMLingua：通过提示压缩加速和增强长背景下的 LLMs

通过压缩提示信息，提高大型语言模型对关键信息的感知能力，从而解决高计算 / 财务成本、延迟时间长和性能劣势等问题。在各种长篇上下文场景下，通过使用 LongLLMLingua 压缩的提示信息，大型语言模型的性能得到提高，成本降低，以及端到端延迟时间减少。

Oct, 2023

有监督的知识提升大语言模型在上下文学习中的表现

通过提示工程，大型语言模型（LLMs）展示了在上下文学习中的新兴能力。最近在大规模生成模型方面的进展进一步扩展了它们在实际语言应用中的使用。然而，在自然语言理解和问题回答方面，提高 LLMs 的泛化能力和准确性的关键挑战仍未得到充分探索。

Dec, 2023

简单的 LLM 提示是稳健多语言对话评估的尖端技术

研究通过结合当前评估模型的优势与新建立的提示性大语言模型的范式，提出了一种新颖的框架，以实现对对话的鲁棒性和多语言性评估能力，并在多个基准测试中取得了最先进的成果，并在 DSTC11 轨道 4 “开放领域对话系统的自动评估指标” 中分别在鲁棒性和多语言任务中名列前茅，证明了提示性大语言模型的评估能力。

Aug, 2023

在教育和评估应用中探索提示式大型语言模型的能力

利用大语言模型在现代教育领域创新的机会，通过研究提问型大语言模型、语法错误解释和人力资源面试评估，揭示了大语言模型在改变教育实践中的潜力和限制。

May, 2024