缓存我如果可以:一种在线的成本感知教师 - 学生框架,用于减少对大型语言模型的调用
大规模部署生成式 AI 工具常依赖于昂贵的 API 调用以满足用户查询。为了节省这些调用的频率,可以使用一个较小的语言模型 - 学生 - 它会持续训练以适应 LLM 的响应。这个学生逐渐增强独立处理用户请求的能力,这个过程我们称之为神经缓存。神经缓存的关键因素是决定哪些请求应由学生单独处理,哪些请求应重定向到 LLM 以辅助学生学习的策略。在这项研究中,我们关注分类任务,并将一系列经典的基于主动学习的选择标准作为策略进行考虑。我们的实验证明,边界采样和委员会查询在任务和预算方面都带来持续的好处。
Oct, 2023
该研究分析了使用大型语言模型的成本,并提出了三种降低推理成本的策略,包括提示适应,LLM 近似和 LLM 级联。 基于这些策略,我们提出了 FrugalGPT,它可以使用不同的组合来降低成本并提高准确性。
May, 2023
使用大型语言模型(LLMs)辅助人类客服代理商自动生成现成或有改动的响应已成为许多公司降低雇用客服代理商成本的方式。本文通过使用成本框架评估一个 NLP 模型的实用性,将其应用于特定品牌的案例研究并比较三种 LLM 的专业化策略,发现模型的响应可用性可以补偿推理成本的巨大差异,并将研究结果推广到更广泛的企业领域。
Jun, 2023
通过提示缓存改善大型语言模型的推理效率,专注于通过嵌入相似性预测单轮问答任务的提示缓存的准确性,并提出了基于蒸馏的方法来优化嵌入,实验结果显示我们的模型在缓存效率上优于之前的嵌入模型。
Feb, 2024
通过代理模型 SlimPLM 在问题 - 回答任务中,检测大型语言模型(LLMs)中缺失的知识,并大幅提升 LLMs 的端到端性能,降低 LLM 推理成本。
Feb, 2024
在本研究中,我们调查了小语言模型(具有不到 10 亿参数)与 prompt-learning 范例相结合,在零样本和少样本场景下针对零售业中客户 - 代理商互动的领域特定文本分类的潜力。我们的评估结果显示,在少样本设置下进行基于提示的模型微调时,220M 参数的典型小语言模型 T5-base 可以在有限的标记数据(高达全数据的 15%)上实现约 75% 的准确性,显示了小语言模型与 prompt-learning 的巨大潜力。基于此,我们进一步验证了主动少样本抽样和 prompt-learning 流程中的集成策略对显著性能提升的有效性。此外,在固定模型的零样本设置中,我们强调了一个关键的观察结果,即尽管具有约 1540B 参数的 GPT-3.5-turbo 可以达到 55.16% 的准确性,但当仅有 0.5% 参数的 FLAN-T5-large 使用经过优化的提示时,其准确性超过 31%,相比使用未经优化提示的准确性提升了近 13%。我们的发现强调了使用小语言模型进行 prompt-learning 的分类任务中的潜力,强调了主动少样本抽样和集成策略在少样本设置中的好处,并强调了零样本设置中提示工程的重要性。
Sep, 2023
使用少量训练示例和任务说明来训练语言模型对于几乎所有任务都很重要,本文提出在极小数据量情境下调整 LM 可显著降低提示工程需求,使用 0.1% 参数更新的 bias terms 可以实现与标准调整相当甚至更好的准确性。
Jun, 2021
本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能,发现通过添加语义信息可以显著提高模型性能,特别是在 PHP 语言的 CodeSearchNet 数据集上。
Apr, 2023
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024
将 LLaMa 适应于 Kinyarwanda、Hausa 和 Luganda 等低资源语言的提示设置是一种计算高效且成本效益的方法,优于翻译和 LAFT,并在所有任务和语言上表现最佳。
Mar, 2024