Kubernetes 上的无服务器推理
本文介绍了 MLProxy,它是一种自适应反向代理,支持在无服务器计算系统上高效地处理机器学习服务工作负载。通过适应性批处理,MLProxy 可以确保满足 SLA 要求的同时优化无服务器成本,为服务器无部署降低了高达 92%的成本,同时将 SLA 违规降低了高达 99%。
Feb, 2022
本研究探讨了NVIDIA最新发布的Ampere GPU体系结构在云机器学习推理系统中的应用,并提出了一种适用于异构GPU服务器部署的复杂划分算法和弹性调度算法,实现低延迟和高GPU利用率的平衡。
Feb, 2022
提出 InfAdapter 系统,使用机器学习变体及其资源分配来满足延迟服务级别目标(SLO),同时最大化由准确性和成本组成的目标函数,从而降低 SLO 违规和成本高达65%和33%。
Apr, 2023
最近在生成人工智能、计算机视觉和自然语言处理方面的进展,已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型,确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要GPU资源以进行高效推理,以满足服务级别目标。在这些趋势的背景下,人们越来越关注在无服务器架构中托管AI模型,并提供推理任务的GPU访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势,我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示,并激发出创新作品。
Nov, 2023
本文介绍了ServerlessLLM,一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM通过三个主要贡献实现了高效的检查点加载和推理:(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载;(ii) 基于本地化的推理和实时迁移,以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配;以及 (iii) 考虑本地化的服务器分配,使ServerlessLLM能够评估集群中每个服务器的状态,并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验,包括微基准测试和真实世界的追踪,表明当运行不同的语言模型推理工作负载时,ServerlessLLM的延迟性能超过了现有技术系统10-200倍。
Jan, 2024
利用优化的无服务器工作流程,在FaaS环境下实现基于知识蒸馏的异构客户端模型的联邦学习(FL)系统,实验证明无服务器FedDF比无服务器FedMD更快、成本更低且对极端非独立同分布数据分布更加鲁棒。
Feb, 2024
FSD-Inference是第一个完全无服务器且高度可扩展的分布式机器学习推断系统,通过与FaaS计算相结合,探索了潜在的通信渠道,为无服务器数据密集型计算中的分布式机器学习设计了一种先进的解决方案。
Mar, 2024
AntBatchInfer是一种针对非专用集群进行优化的弹性离线批量推理框架,通过提供多级容错能力和改进推理效率的方法,稳定高效地执行复杂的单模型和多模型批量推理任务,并在稳定性和效率方面表现优越。
Apr, 2024
Apodotiko是一种为无服务器联邦学习设计的新型异步训练策略,通过评估每个客户端的硬件能力和数据集大小,智能地优先选择客户端,并最小化系统性能受到策略影响的慢速客户端,实验结果表明,Apodotiko优于其他FL训练策略,平均加速比达到2.75倍,最大加速比达到7.03倍,同时有效减少冷启动。
Apr, 2024
CascadeServe通过使用模型级联进行端到端的推理服务自动化和优化,在不同工作负载上与现有技术进行比较时,在延迟-准确性空间的广泛范围内可以节约2-3倍的成本。
Jun, 2024