SMART: 对于降低处理费用而言，自动缩减具有准确性保证的语言模型

Mar, 2024

SMART: 对于降低处理费用而言，自动缩减具有准确性保证的语言模型

SMART: Automatically Scaling Down Language Models with Accuracy Guarantees for Reduced Processing Fees

Saehan Jo, Immanuel Trummer

TL;DR智能缩放模型在降低自然语言处理任务的推理成本方面具有显著的经济效益，通过在多个模型之间进行权衡，可以实现高质量和低成本的结果。

Abstract

The advancement of large language models (llms) has significantly boosted performance in natural language processing (NLP) tasks. However, the deployment of high-performance →

large language models llms inference costs smart cost savings

发现论文，激发创造

FrugalGPT：如何在降低成本和提高性能的同时使用大型语言模型

该研究分析了使用大型语言模型的成本，并提出了三种降低推理成本的策略，包括提示适应，LLM 近似和 LLM 级联。基于这些策略，我们提出了 FrugalGPT，它可以使用不同的组合来降低成本并提高准确性。

May, 2023

优化 LLM 使用成本的探索

本研究提出了一种通过预测 LLMs 的输出质量并优化选择 LLMs 的模型和算法，以降低使用成本，并在质量和延迟意识的情况下实现成本和质量的折衷。研究表明，我们的方法在降低成本 40%-90% 的同时，提高了质量 4%-7%。

Jan, 2024

规模逐步缩小：以成本效益分析替换 OpenAI GPT-4 与自托管的开源 SLM 在生产中

本文介绍了一种系统评估方法，用于替代现有专有语言模型应用程序接口（APIs）的现代开源小语言模型，并进行了对比测试，发现其具有竞争力的结果质量，显著的性能一致性改进和降低 5 倍至 29 倍的成本。

Dec, 2023

处理低资源语言任务的成本性能优化：使用商业 LLMs

降低大型语言模型在低资源语言的处理成本，同时确保预测和生成性能不受损失，通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量，并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%，并且与原始低资源语言的交互相比性能更好或可比。

Mar, 2024

从零开始预训练轻量级大型语言模型 MindLLM: 评估与领域应用

MindLLM 是一系列双语轻量级大型语言模型，通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验，并介绍了适用于较小模型的创新指令调整框架，同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。

Oct, 2023

大型语言模型的经济性权衡：一个案例研究

使用大型语言模型（LLMs）辅助人类客服代理商自动生成现成或有改动的响应已成为许多公司降低雇用客服代理商成本的方式。本文通过使用成本框架评估一个 NLP 模型的实用性，将其应用于特定品牌的案例研究并比较三种 LLM 的专业化策略，发现模型的响应可用性可以补偿推理成本的巨大差异，并将研究结果推广到更广泛的企业领域。

Jun, 2023

MobiLlama：面向准确轻量级全透明的 GPT

通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama，本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战，并关注性能提升和资源需求降低，以满足隐私、安全和可持续性部署的需求。

Feb, 2024

大型语言模型调查

本文介绍了最近关于预训练语言模型（PLMs）的新进展，重点讨论了大型语言模型的预训练、适应和调整、利用和容量评估四个方面，并讨论了未来研究的问题和方向。

Mar, 2023

面向口语对话系统的可伸缩语言模型适应

提出了一种方法，基于手写语法直接估计 n-gram 数量和使用约束优化来适应新应用意图，同时不降低过去应用的性能，使用该方法在私人助手系统中对新应用意图进行了评估，发现即使对于没有此类应用程序的适应数据，适应可以将单词错误率提高 15％。

Dec, 2018

朝着帕累托最优吞吐量的小语言模型服务

通过实验和分析，本文旨在对小型语言模型的推理性能和能量效率进行基准测试，并得出结论说明模型复制可以有效提高服务小型语言模型时的资源利用率。

Apr, 2024