蝇拍还是大炮?通过元建模选择具有性价比的语言模型
本研究通过比较分析了专用领域适应的大型语言模型(LLM)与最先进的 LLM 之间的总拥有成本和性能,重点关注与芯片设计相关的编码辅助任务。我们评估了一个专用领域适应的 LLM 模型 ChipNeMo 与两个领先的 LLM 模型 Claude 3 Opus 和 ChatGPT-4 Turbo 的 TCO 和性能指标,以评估它们在芯片设计编码生成方面的有效性,旨在为利益相关者提供关键的信息,以选择最经济有效和性能高效的解决方案以满足其特定需求。我们的结果强调了应用专用领域适应模型(如 ChipNeMo)的优势,它们在显著降低成本的同时提高了性能,尤其是我们揭示了专用领域适应 LLM 降低 TCO 约 90%-95% 的潜力,成本优势在部署规模扩大时变得越发显著,使专用领域适应 LLM 成为具有大量 LLM 支持编码需求的组织的有吸引力的选择。
Apr, 2024
我们提出了一个针对大型语言模型的成本效益查询分配问题的框架,名为 OptLLM,通过使用多标签分类模型进行性能预测,生成一系列优化解决方案,旨在满足用户的预算限制和性能偏好,包括最大化准确性和最小化成本。OptLLM 在各种类型的任务上进行了广泛的实验,包括文本分类、问答、情感分析、推理和日志解析,实验证明 OptLLM 在降低成本 2.40% 至 49.18% 的同时实现与最佳大型语言模型相同的准确性,相比其他多目标优化算法,OptLLM 在相同成本下提高 2.94% 至 69.05% 的准确性或节省 8.79% 至 95.87% 的成本并保持最高可达准确性。
May, 2024
通过创建示例池来代表每种语言模型较可靠回答的上下文类型,并利用经过微调的句子嵌入使上下文相似性接近对话状态相似性,本研究提出了一种新颖的 SLM/LLM 路由框架,旨在提高计算效率并增强任务性能,在对话状态跟踪任务中,相较于仅依赖 LLMs,所提出的路由框架显著提高性能,同时减少计算成本超过 50%。
Nov, 2023
通过缓存以前的机器学习模型响应并在中小企业端训练一个本地经济型模型,我们提出了一种降低调用大型语言模型次数的框架,使用两个常见的商业任务(意图识别和情感分析)以及两个经济型学生(k-NN 分类器和多层感知器)来展现实验结果表明,除了稍微降低性能外,还可以获得显著的运营费用节约。
Oct, 2023
通过提出一个专为大型语言模型量身定制的泛化、评估和成本建模框架,我们认为在部署大型语言模型之前,企业需要仔细评估泛化、评估和成本优化三个因素。
Aug, 2023
降低大型语言模型在低资源语言的处理成本,同时确保预测和生成性能不受损失,通过考虑代码混合、翻译和音译等方式来减少 LLM 处理的标记数量,并通过广泛研究 15 种印度语言的 IndicXTREME 数据集来证明最佳交互策略可以将成本降低 90%,并且与原始低资源语言的交互相比性能更好或可比。
Mar, 2024
本文通过大量实证研究探索了多语言大型语言模型在涉及语种切换的情况下情感分析、机器翻译和单词级别语言识别等任务的表现。研究显示,虽然这些模型在使用零 / 少量提示时在某些任务中表现出色,但与较小的微调模型相比,它们的性能仍然有所不适。因此,研究者认为未来需要进一步研究来完全弥合这一差距。
May, 2023
Coke 是一种新颖的成本有效的 KBQA 策略,它通过将 LLMs 和 KGMs 相结合,作为一个定制的多臂赌博问题来最小化对 LLMs 的调用,从而在有限的预算内实现成本节约并提高准确性。
May, 2024
本文提出了有效的技术方法,包括知识继承、提示微调、InFmoE,在处理预训练、微调和推理的效率问题上使用大规模的预训练语言模型,并在实验中验证了方法的有效性。
Jun, 2021