在线级联学习以提高流式推理效率

Feb, 2024

在线级联学习以提高流式推理效率

Online Cascade Learning for Efficient Inference over Streams

Lunyiu Nie, Zhimin Ding, Erdong Hu, Christopher Jermaine, Swarat Chaudhuri

TL;DR通过在线级联学习，我们提出了一种学习级联的方法来应对大规模语言模型推理的高计算成本问题，通过确定适用的模型以及推迟策略，可以将推理成本降低至 90%，并保持与大规模语言模型相当的准确性，凸显其在流处理中的有效性和适应性。

Abstract

large language models (LLMs) have a natural role in answering complex queries about data streams, but the high computational cost of LLM inference makes them infeasible in many such tasks. We propose

large language models online cascade learning computational cost deferral policy stream processing

发现论文，激发创造

LLM 间在不泄露私人信息的情况下是否可能相互协助？

本研究通过引入隐私保护技术，展示了在具有敏感数据访问权限的情况下，将级联系统应用于机器学习模型中的可行性，并提出了减少信息泄露风险的两种隐私度量方法。同时，通过运用社交学习范式，展示了在多个数据集上，相较于非级联基线，我们的方法不仅最小化了隐私损失，还提高了任务性能。

Apr, 2024

级联感知语言模型的训练

通过级联语言模型的优化训练方法，本研究提出了一种能够减少服务成本和延迟的解决方案，并在超过 60 个语言模型任务中展示了该方法的价值。

May, 2024

MODL：多学习器在线深度学习

在线深度学习采用混合多学习器方法，实现快速学习和深度学习的有效平衡，并通过协同学习解决在线学习问题，能够优雅地处理缺失特征，实现了最先进的结果。

May, 2024

流式终身学习及任意时间推理

在动态环境中，在线、单通、类增的情况下，我们利用基于贝叶斯的框架和在线内存回访的有效方法来解决这个挑战性的 lifelong learning 问题，并在实验证明了我们的方法超越了此前的研究成果。

Jan, 2023

CascadeServe: 解锁模型级联进行推理服务

CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化，在不同工作负载上与现有技术进行比较时，在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。

Jun, 2024

语言模型级联：标记级别的不确定性和更多

通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验，我们表明，通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层，可以在整体成本与质量的权衡中实现额外的提升。

Apr, 2024

视频 LLM-online：用于流媒体视频的在线视频大语言模型

通过学习视频流进行大规模语言模型增强，提供视觉能力及实时对话功能，以应对视频流输入的视频流对话学习目标、数据生成方案和优化推断流程的新颖学习框架。

Jun, 2024

大型语言模型级联与思维混合表达用于高效推理

通过构建 LLM 级联模型来实现节约成本，特别是在推理任务中的使用，通过应用弱一些但更便宜的 LLM 来解决简单问题，只有复杂问题才需要更强大且更昂贵的 LLM，实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度，并提出了几种答案采样和一致性检查的方法，其中有一个利用了两种思考表示（Chain-of-Thought 和 Program-of-Thought）的混合方法，在六个推理基准数据集上的实验证明，我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能，但仅需 40% 的成本。

Oct, 2023

模型级联：提高 NLP 系统的效率和准确性

本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术，能够提高 NLP 系统的计算效率和预测准确性，并且引入更多模型可进一步提高效率。

Oct, 2022

低延迟大型语言模型的 LiveMind：具有同时推理的特性

本文介绍了一种用于大型语言模型（LLMs）的新型低延迟推断框架，使 LLMs 能够使用不完整的提示进行推断，并通过重新分配计算过程到提示输入阶段，实现了大幅度的延迟降低，从而显著提高用户与 LLMs 的交互体验。该框架灵活地管理模型对流式提示的可见性，允许它从不完整的提示中进行推断或等待附加提示。与使用完整提示的传统推断方法相比，我们的方法在 MMLU-Pro 数据集上表现出平均响应延迟减少 59％，同时保持相当的准确性。此外，我们的框架促进了不同模型之间的协同推断和输出。通过使用 LLM 进行推断和使用小型语言模型（SLM）进行输出，与 SLM 基线相比，我们在 MMLU-Pro 数据集上实现了平均响应延迟减少 68％，准确性提高了 5.5％。对于超过 20 个句子的长提示，响应延迟可以降低高达 93％。

Jun, 2024