无服务器机器学习模型推理调查

Nov, 2023

A Survey of Serverless Machine Learning Model Inference

Kamil Kojs

TL;DR最近在生成人工智能、计算机视觉和自然语言处理方面的进展，已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型，确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理，以满足服务级别目标。在这些趋势的背景下，人们越来越关注在无服务器架构中托管 AI 模型，并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势，我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示，并激发出创新作品。

Abstract

Recent developments in generative ai, computer vision, and Natural Language Processing have led to an increased integration of AI models into various products. This widespread adoption of AI requires significant

generative ai computer vision natural language processing machine learning models large-scale deep learning serving systems

发现论文，激发创造

MLProxy: 面向无服务器计算平台的 SLA 感知机器学习推理反向代理

本文介绍了 MLProxy，它是一种自适应反向代理，支持在无服务器计算系统上高效地处理机器学习服务工作负载。通过适应性批处理，MLProxy 可以确保满足 SLA 要求的同时优化无服务器成本，为服务器无部署降低了高达 92％的成本，同时将 SLA 违规降低了高达 99％。

Feb, 2022

Kubernetes 上的无服务器推理

本文介绍了利用 KFServing 这一构建在 KNative 无服务器框架之上的服务器化机器学习推理解决方案，在保持简洁一致的界面的同时缓解了基础设施成本与 GPU 推理的自动扩容挑战。

Jul, 2020

推理服务系统的高精度、成本效益和低延迟的调和

提出 InfAdapter 系统，使用机器学习变体及其资源分配来满足延迟服务级别目标（SLO），同时最大化由准确性和成本组成的目标函数，从而降低 SLO 违规和成本高达 65％和 33％。

Apr, 2023

大规模生成模型时代的计算：从云原生到 AI 原生

探讨大型生成式 AI 模型与云原生计算架构的交叉点，提出了一种利用云原生技术和先进的机器学习运行时的 AI 本地化计算范式，旨在优化成本和提高资源可访问性。

Jan, 2024

朝向高效的生成式大型语言模型服务：从算法到系统的调研

人工智能中生成式大型语言模型的高效部署方法的综述

Dec, 2023

云基 AI 服务的隐私和安全影响研究

云生态系统中的隐私和安全论文指出，解决机器学习模型引入的风险存在差距，通过调查 AIaaS 领域，提出了一种分类法来全面检查 ML 模型的创作者和消费者所面临的风险及其已知防御措施，为提供方和消费方提供了基础解决方案。

Jan, 2024

IBM 深度学习服务

本文介绍了 IBM 的深度学习服务（DLaaS）的软件架构细节，该服务提供深度学习库，通过分布和编排层，资源供应层实现在云中可伸缩和弹性的管理，利用深度学习以及云计算相结合的业务模式，将传统机器学习方法向深度学习推进。

Sep, 2017

实现绿色机器学习服务的架构设计决策鉴别

通过分析机器学习模型在 ML 服务中的架构设计决策，识别与之相关的组件，与相关的技术栈，以及文献中研究的质量特征，包括能源效率，此研究旨在为研究者和从业者在提供模型时做出有环保意识的架构设计决策提供参考。

Feb, 2024

可扩展、分布式 AI 框架：利用云计算提高深度学习性能和效率

本文全面研究了利用云计算的可扩展和分布式人工智能框架以提高深度学习性能和效率的关键方面，包括数据存储和管理、优化策略、模型部署与服务等，并讨论了云计算人工智能的挑战、限制和未来研究方向。

Apr, 2023

网络边缘的机器学习调查

本文综述了在边缘计算设备上部署机器学习系统的主要研究工作，重点关注了智能边缘系统成功应用中使用的压缩技术、工具、框架和硬件等方面的运营问题。

Jul, 2019