SMART: 对于降低处理费用而言,自动缩减具有准确性保证的语言模型
该研究分析了使用大型语言模型的成本,并提出了三种降低推理成本的策略,包括提示适应,LLM 近似和 LLM 级联。 基于这些策略,我们提出了 FrugalGPT,它可以使用不同的组合来降低成本并提高准确性。
May, 2023
本研究提出了一种通过预测 LLMs 的输出质量并优化选择 LLMs 的模型和算法,以降低使用成本,并在质量和延迟意识的情况下实现成本和质量的折衷。研究表明,我们的方法在降低成本 40%-90% 的同时,提高了质量 4%-7%。
Jan, 2024
本文介绍了一种系统评估方法,用于替代现有专有语言模型应用程序接口(APIs)的现代开源小语言模型,并进行了对比测试,发现其具有竞争力的结果质量,显著的性能一致性改进和降低 5 倍至 29 倍的成本。
Dec, 2023
降低大型语言模型在低资源语言的处理成本,同时确保预测和生成性能不受损失,通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量,并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%,并且与原始低资源语言的交互相比性能更好或可比。
Mar, 2024
MindLLM 是一系列双语轻量级大型语言模型,通过从头开始训练模型以减轻培训和部署大型语言模型的负担并解决资源不足问题。该论文提供了大模型开发过程中的经验,并介绍了适用于较小模型的创新指令调整框架,同时探索了 MindLLM 在法律和金融等特定垂直领域的应用。
Oct, 2023
使用大型语言模型(LLMs)辅助人类客服代理商自动生成现成或有改动的响应已成为许多公司降低雇用客服代理商成本的方式。本文通过使用成本框架评估一个 NLP 模型的实用性,将其应用于特定品牌的案例研究并比较三种 LLM 的专业化策略,发现模型的响应可用性可以补偿推理成本的巨大差异,并将研究结果推广到更广泛的企业领域。
Jun, 2023
通过引入准确而高效的开源 0.5 亿参数的小语言模型 MobiLlama,本文探讨了在资源受限设备上设计准确但高效的小语言模型的挑战,并关注性能提升和资源需求降低,以满足隐私、安全和可持续性部署的需求。
Feb, 2024
提出了一种方法,基于手写语法直接估计 n-gram 数量和使用约束优化来适应新应用意图,同时不降低过去应用的性能,使用该方法在私人助手系统中对新应用意图进行了评估,发现即使对于没有此类应用程序的适应数据,适应可以将单词错误率提高 15%。
Dec, 2018