重访级联集成以提高推理效率

ICMLJul, 2024

Revisiting Cascaded Ensembles for Efficient Inference

Steven Kolawole, Don Dennis, Ameet Talwalkar, Virginia Smith

TL;DR本文研究了一种简单的自适应推理方案，通过构建级联模型集成（CoE）并根据集成一致性作为数据依赖路由准则，将资源高效的模型逐渐扩展到更表达能力的模型，从而提高准确性并降低推理成本。

Abstract

A common approach to make machine learning inference more efficient is to use example-specific adaptive schemes, which route or select models for each example at inference time. In this work we study a simple scheme for adaptive inference. We build a cascade of ensembles (CoE), beginning with resource-efficient models and growing to larger, more expressive m

adaptive inference ensemble agreement resource tiers parallel inference edge inference

发现论文，激发创造

深度集成学习的推理效率优化

本文提出了一种基于序列推理过程的集成学习方法，通过逐步筛选难度较大的样本，动态调整模型的推理集成过程，从而同时优化推理的有效性和效率，实现了 56% 推理成本的减少，而维持与全集成模型相当的性能。

Jan, 2023

级联深度分类器的高效摊销推理

该论文提出了一种使用深度神经网络级联和选择模块的新框架，通过同时优化预测准确性和能耗，实现了在测试时间的有效成本 - 准确性权衡，验证了该方法在图像分类任务中优于标准训练的 ResNets，对 CIFAR-10/100 数据集的 FLOPs 成本需求不到 20% 和 50%，在 ImageNet 数据集上只需求 66%。

Oct, 2017

基于视窗的早期退出级联用于不确定性估计：当深度集成优于单一模型

本文研究了将 Deep Ensembles 方法扩展到与不确定性评估相关的任务，提出了一种在接近二元决策边界的窗口内传递样本以实现早期退出的新方法，并发现级联 / 集成模型在 OOD 数据上比模型扩展更可靠。

Mar, 2023

CascadeServe: 解锁模型级联进行推理服务

CascadeServe 通过使用模型级联进行端到端的推理服务自动化和优化，在不同工作负载上与现有技术进行比较时，在延迟 - 准确性空间的广泛范围内可以节约 2-3 倍的成本。

Jun, 2024

委员会的智慧：一个被忽视的更快更准的模型方法

本文研究委员会模型的效率，揭示即使使用最简单的基于现有预训练模型构建委员会的方法，依然可以在图像分类、视频分类和语义分割等任务中达到与现有最先进模型相当或更高的精度，且速度更快，比如 EfficientNet 级联可以达到超过 B7 5.4 倍的加速。

Dec, 2020

模型级联：提高 NLP 系统的效率和准确性

本研究旨在探讨利用容量不同的模型集合进行级联的 Model Cascading 技术，能够提高 NLP 系统的计算效率和预测准确性，并且引入更多模型可进一步提高效率。

Oct, 2022

现代自优化系统的基于集成模型的建模抽象

本文在我们的基于集成的组件模型 DEECo 中扩展了使用机器学习和优化启发式算法来建立和重新配置自主组件集合的能力。我们展示了如何在模型层次上捕捉这些概念，并举例说明这样的模型如何有益地应用于工业 4.0 环境中与访问控制相关的问题。我们认为将机器学习和优化启发式算法纳入现代智能系统是一个关键特性，使其能够在学习过程中适应环境的不确定性并优化其行为。

Sep, 2023

SambaNova SN40L：通过数据流和专家组合扩展 AI 的内存墙

结合 Composition of Experts（CoE）、流数据流和三层内存系统解决了人工智能内存瓶颈的问题，并介绍了 Samba-CoE，一个包含 150 个专家和一万亿总参数的 CoE 系统，部署在 SambaNova SN40L Reconfigurable Dataflow Unit (RDU) 上，通过引入三层内存系统、专用的 RDU 网络和多个 RDU 插槽实现了速度提升，有效减少机器占用空间并加快模型切换时间。

May, 2024

级联感知语言模型的训练

通过级联语言模型的优化训练方法，本研究提出了一种能够减少服务成本和延迟的解决方案，并在超过 60 个语言模型任务中展示了该方法的价值。

May, 2024

级联预测模型的近似算法

本文介绍了一种近似算法，将一组预训练模型作为输入，并生成一个具有类似准确度但平均成本较低的级联模型，应用于最先进的 ImageNet 分类模型，可将浮点乘法降低达 2 倍，并将平均情况下的内存 I / O 降低达 6 倍。自动生成的级联呈现出直观的特性，如对易于处理的图像使用较低分辨率输入，并在使用计算成本较低的模型时需要更高的预测置信度。

Feb, 2018