LazyBatching:面向云机器学习推断的考虑 SLA 的批处理系统
本文介绍了 MLProxy,它是一种自适应反向代理,支持在无服务器计算系统上高效地处理机器学习服务工作负载。通过适应性批处理,MLProxy 可以确保满足 SLA 要求的同时优化无服务器成本,为服务器无部署降低了高达 92%的成本,同时将 SLA 违规降低了高达 99%。
Feb, 2022
本文提出了一种动态批处理策略,该策略可以在 GPU 上实现高效算法和长时间响应之间的平衡,通过将 GPU 推理服务建模为一个批处理服务队列,然后将设计问题转化为半马尔可夫决策过程,通过解决一个相关的离散时间马尔可夫决策过程问题获得最优策略。
Jan, 2023
提出了一种基于学习的 BCEdge 调度框架,其对边缘平台上多个深度神经网络模型进行自适应分批和并发执行,从而实现高吞吐量和低延迟。通过最大熵深度强化学习优化批大小和并发模型数量,不仅提高了系统利用率,还较完美地满足了质量服务要求 (SLO)。
May, 2023
研究了输入批处理对计算机视觉的五个全面训练的神经网络的能源消耗和响应时间的影响,结果表明批处理对这两个指标都有显著影响。此外,通过过去十年的能源效率和准确性时间线,发现能源消耗上升速度比准确性快得多,质疑了这种发展的必要性。
Jul, 2023
最近在生成人工智能、计算机视觉和自然语言处理方面的进展,已经使得人工智能模型得到了广泛应用。这种广泛应用需要在生产环境中部署这些模型,确保可靠性、最小的停机时间以及优化基础设施的运营成本。大型机器学习模型经常需要 GPU 资源以进行高效推理,以满足服务级别目标。在这些趋势的背景下,人们越来越关注在无服务器架构中托管 AI 模型,并提供推理任务的 GPU 访问。这项调查旨在总结和分类大规模深度学习服务系统中的新兴挑战和优化机会。通过提供新颖的分类法和总结最近的趋势,我们希望这项调查能为大规模深度学习服务系统的新的优化视角提供启示,并激发出创新作品。
Nov, 2023
通过最大化节点对输出的影响分数来理论建模批处理构建,在推理方面 IBMB 加速了最多 130 倍,并且通过使用自适应优化和正确的训练计划 IBMB 还可以加速训练,每个时期快 18 倍,并且与先前方法相比,每个运行时收敛速度最高可达 17 倍。
Dec, 2022
AntBatchInfer 是一种针对非专用集群进行优化的弹性离线批量推理框架,通过提供多级容错能力和改进推理效率的方法,稳定高效地执行复杂的单模型和多模型批量推理任务,并在稳定性和效率方面表现优越。
Apr, 2024
本文提出一种动态数据并行训练技术,该技术通过使用比例控制和 PID 控制器的思想,在异构计算集群上均等迭代时间、调整 mini-batch 大小,从而减少模型训练时间。
May, 2023
本文研究了如何加速深度神经网络在边缘服务器上处理多个客户端的任务,通过批处理的方式和优化调度算法,使用不同的目标函数把多个请求合并,最终提高了处理效率和性能。
Apr, 2023