在线级联学习以提高流式推理效率
本研究通过引入隐私保护技术,展示了在具有敏感数据访问权限的情况下,将级联系统应用于机器学习模型中的可行性,并提出了减少信息泄露风险的两种隐私度量方法。同时,通过运用社交学习范式,展示了在多个数据集上,相较于非级联基线,我们的方法不仅最小化了隐私损失,还提高了任务性能。
Apr, 2024
在动态环境中,在线、单通、类增的情况下,我们利用基于贝叶斯的框架和在线内存回访的有效方法来解决这个挑战性的 lifelong learning 问题,并在实验证明了我们的方法超越了此前的研究成果。
Jan, 2023
CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。
Jun, 2024
通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验,我们表明,通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层,可以在整体成本与质量的权衡中实现额外的提升。
Apr, 2024
通过学习视频流进行大规模语言模型增强,提供视觉能力及实时对话功能,以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。
Jun, 2024
通过构建 LLM 级联模型来实现节约成本,特别是在推理任务中的使用,通过应用弱一些但更便宜的 LLM 来解决简单问题,只有复杂问题才需要更强大且更昂贵的 LLM,实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度,并提出了几种答案采样和一致性检查的方法,其中有一个利用了两种思考表示(Chain-of-Thought 和 Program-of-Thought)的混合方法,在六个推理基准数据集上的实验证明,我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能,但仅需 40% 的成本。
Oct, 2023
本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术,能够提高 NLP 系统的计算效率和预测准确性,并且引入更多模型可进一步提高效率。
Oct, 2022
本文介绍了一种用于大型语言模型(LLMs)的新型低延迟推断框架,使 LLMs 能够使用不完整的提示进行推断,并通过重新分配计算过程到提示输入阶段,实现了大幅度的延迟降低,从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性,允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比,我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59%,同时保持相当的准确性。此外,我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型(SLM)进行输出,与 SLM 基线相比,我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68%,准确性提高了 5.5%。对于超过 20 个句子的长提示,响应延迟可以降低高达 93%。
Jun, 2024