优化 LLM 使用成本的探索

Jan, 2024

Towards Optimizing the Costs of LLM Usage

Shivanshu Shekhar, Tanishq Dubey, Koyel Mukherjee, Apoorv Saxena, Atharv Tyagi...

TL;DR本研究提出了一种通过预测 LLMs 的输出质量并优化选择 LLMs 的模型和算法，以降低使用成本，并在质量和延迟意识的情况下实现成本和质量的折衷。研究表明，我们的方法在降低成本 40%-90% 的同时，提高了质量 4%-7%。

Abstract

generative ai and llms in particular are heavily used nowadays for various document processing tasks such as question answering and summarization. However, different →

generative ai llms optimization costs quality

发现论文，激发创造

处理低资源语言任务的成本性能优化：使用商业 LLMs

降低大型语言模型在低资源语言的处理成本，同时确保预测和生成性能不受损失，通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量，并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%，并且与原始低资源语言的交互相比性能更好或可比。

Mar, 2024

OptLLM: 大型语言模型的最佳查询分配

我们提出了一个针对大型语言模型的成本效益查询分配问题的框架，名为 OptLLM，通过使用多标签分类模型进行性能预测，生成一系列优化解决方案，旨在满足用户的预算限制和性能偏好，包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验，包括文本分类、问答、情感分析、推理和日志解析，实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性，相比其他多目标优化算法，OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。

May, 2024

面向优化的大型语言模型

评估 LLM 在各种任务和数据大小上的优化能力，并引入了三个不同的指标来全面评估任务性能。通过应用这些指标，我们观察到 LLM 在处理小规模样本时表现出很强的优化能力，但其性能受到数据大小和值等因素的显著影响，强调了对 LLM 的优化任务领域进行进一步研究的重要性。

Oct, 2023

通过效率视角进行语言模型的规划

对使用 LLMs 进行规划的成本进行分析，指出最近的趋势极其不经济。我们提出了一种更高效的方法，并呼吁研究团体探索维持效率的基于 LLMs 的方法的负责任使用计算资源。

Apr, 2024

LLM 加速、优化和应用的新解决方案

该研究综述了针对大型语言模型（LLMs）的挑战以及提高系统效率的最新进展和研究方向，包括算法级加速技术、LLM 硬件与软件协同设计策略、LLMs 加速器编译方法以及利用 LLMs 辅助电路设计的方法。通过这些工作，旨在为 LLMs 在各种应用中实现更高效、可扩展的部署铺平道路。

Jun, 2024

文本摘要质量评估方法的比较研究

基于大型语言模型的方法用于评估文本摘要，与人工评估相比，其结果接近，并且比常用的自动度量方法更一致。因此，我们提出了一种利用大型语言模型自动评估和改进文本摘要的框架，具有广泛的关注度。

Jun, 2024

SMART: 对于降低处理费用而言，自动缩减具有准确性保证的语言模型

智能缩放模型在降低自然语言处理任务的推理成本方面具有显著的经济效益，通过在多个模型之间进行权衡，可以实现高质量和低成本的结果。

Mar, 2024

通过 LLMs 简化长文档摘要评估

该研究提出了一种新方法，即从长文档中提取关键句子，然后通过提示大型语言模型来评估摘要，以解决计算成本高、长文档中的重要信息往往被忽视的问题，研究结果显示该方法不仅显著降低了评估成本，而且与人工评估的相关性更高，此外，我们还提供了关于最佳文档长度和句子提取方法的实用建议，为基于大型语言模型的文本生成评估的成本效益更高且更准确的方法的发展做出了贡献。

Sep, 2023

企业版预训练语言模型 Fine Tuning 指南与推荐

使用专有文件和代码从企业存储库中细调 LLMa LLMs，以评估响应质量，同时提供细调 LLM 的实用指导和建议。

Mar, 2024

LeanContext: 高效领域特定问答的成本效益探究利用 LLMs

LeanContext 是一种从上下文中高效提取与查询密切相关的关键句子的方法，采用强化学习技术动态确定提取的句子数量，其余重要性较低的句子通过开源的文本缩减方法进行缩减。与保留完整上下文的基准方法相比，尽管成本减少了 37.29％至 67.81％，LeanContext 的 ROUGE-1 得分仅下降了 1.41％至 2.65％。此外，如果使用免费预训练的基于大型语言模型的摘要方法来缩减上下文，LeanContext 可以进一步修改缩减后的上下文，提高准确性（ROUGE-1 得分）13.22％至 24.61％。

Sep, 2023