通过在线级联学习,我们提出了一种学习级联的方法来应对大规模语言模型推理的高计算成本问题,通过确定适用的模型以及推迟策略,可以将推理成本降低至 90%,并保持与大规模语言模型相当的准确性,凸显其在流处理中的有效性和适应性。
Feb, 2024
本研究通过引入隐私保护技术,展示了在具有敏感数据访问权限的情况下,将级联系统应用于机器学习模型中的可行性,并提出了减少信息泄露风险的两种隐私度量方法。同时,通过运用社交学习范式,展示了在多个数据集上,相较于非级联基线,我们的方法不仅最小化了隐私损失,还提高了任务性能。
Apr, 2024
本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术,能够提高 NLP 系统的计算效率和预测准确性,并且引入更多模型可进一步提高效率。
Oct, 2022
通过对 FLAN-T5 模型在一系列自然语言基准测试中进行实验,我们表明,通过学习后续的推迟规则来结合较小模型的嵌入和较大模型的中间层,可以在整体成本与质量的权衡中实现额外的提升。
CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。
Jun, 2024
本文提出了一种端到端的可训练语音翻译模型,通过优化所有 ASR 和 MT 模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现 backpropagation 传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在 BLEU 和 TER 方面均优于传统级联模型和直接模型。
Nov, 2020
本研究引入了一种置信度校准的模型级联方法($C^3$),通过在级联推断之前进行校准,提高了级联的准确性,实验证明 $C^3$ 明显优于所有现有的基线模型。
通过构建 LLM 级联模型来实现节约成本,特别是在推理任务中的使用,通过应用弱一些但更便宜的 LLM 来解决简单问题,只有复杂问题才需要更强大且更昂贵的 LLM,实现这种决策的关键是通过检查较弱 LLM 的 “答案一致性” 来判断问题的难度,并提出了几种答案采样和一致性检查的方法,其中有一个利用了两种思考表示(Chain-of-Thought 和 Program-of-Thought)的混合方法,在六个推理基准数据集上的实验证明,我们的 LLM 级联模型可以达到与单独使用更强大的 LLM 相当的性能,但仅需 40% 的成本。
Oct, 2023
通过利用概率编程技术以及组合多个模型,并在测试中反复交互,我们提出了一种基于语言模型层级结构的模型组合方法,以实现对复杂数据类型(如字符串)的快速学习和推理。
Jul, 2022
本研究分析了动态提前退出的工作机制,并发现其在高速比下面临性能瓶颈。为了解决这个问题,提出了一个新的框架 CascadeBERT,可以在重要性和正确性方面提供综合的表示。 经过实验证明,与现有的动态提前退出方法相比,CascadeBERT 在六个分类任务上的性能提升达到了 15%,可实现 4 倍加速。
Dec, 2020