强化学习（RL）增强冷启动频率减少在无服务器计算中的应用

Aug, 2023

强化学习（RL）增强冷启动频率减少在无服务器计算中的应用

Reinforcement Learning (RL) Augmented Cold Start Frequency Reduction in Serverless Computing

Siddharth Agarwal, Maria A. Rodriguez, Rajkumar Buyya

TL;DR通过使用强化学习减少冷启动频率，以提高函数即时初始化效果的解决方案的实现与评估。

Abstract

function-as-a-service is a cloud computing paradigm offering an event-driven execution model to applications. It features serverless attributes by eliminating resource management responsibilities from developers and offers transparent and on-demand scalability of applications. Typical

function-as-a-service serverless applications cold starts reinforcement learning kubeless

发现论文，激发创造

一种智能无服务器函数的深度递归强化学习方法

通过将模型无关的循环强化学习（Recurrent RL）代理与最先进的 PPO 算法相结合，我们研究了用于函数自动缩放的模型无关的 Recurrent RL 代理，并将其与基于阈值的函数自动缩放进行了比较，发现循环策略能够捕捉环境参数并在函数自动缩放方面显示出有希望的结果。除此之外，我们将基于 PPO 的自动缩放代理与商业使用的基于阈值的函数自动缩放进行了比较，并认为基于 LSTM 的自动缩放代理能够提高吞吐量 18％，函数执行速度 13％，并支持多出 8.4％的函数实例。

Aug, 2023

无服务器计算中深度强化学习的综述：函数调度与资源自动扩展

该论文综述了深度强化学习技术在无服务器计算的函数调度和资源扩展领域的应用，分析了各种算法、模型和性能，发现深度强化学习在提高函数调度和资源扩展效率方面取得了有希望的结果，同时也指出了需要解决的挑战和未来研究方向。

Oct, 2023

用时间卷积网络管理无服务器云中的冷启动

该论文提出了一种新的低耦合、高内聚的集成策略以解决无服务器云堆栈基础结构和功能级别的冷启动问题，并提出了一种基于时间卷积网络（TCN）的深度学习方法，用于预测未来 10 至 15 分钟内功能实例的到来，并在实际数据集上进行了基准测试，证明 TCN 在时序机器学习算法中表现出更好的性能。

Apr, 2023

大规模云服务提供商中无服务器应用的特性与优化

本研究以 Azure Functions 的 FaaS 工作负载为例，深入分析了其执行特征，并提出了一种实用性的资源管理策略，该策略显著减少了函数的冷启动次数，同时比现有策略花费更少的资源。

Mar, 2020

数据中心计算节点功耗降低的性能感知增强学习方法

当 Exascale 计算成为现实时，云数据中心的计算节点能源需求将继续增长。在系统其他方面经历瓶颈时，降低硬件组件的功耗是减少能源需求的常见方法之一。然而，设计一个能够实时检测和限制功耗的资源控制器是一个复杂的问题，可能会对应用性能产生不利影响。本文中，我们探索使用强化学习（RL）设计云计算节点上的功耗限制策略，利用当前功耗和瞬时应用性能（心跳）的观测。通过将 Argo Node Resource Management（NRM）软件堆栈与 Intel Running Average Power Limit（RAPL）硬件控制机制相结合，设计一个代理程序来控制处理器的最大供电功率，而不会影响应用性能。利用 Proximal Policy Optimization（PPO）代理程序在计算节点的数学模型上学习最优策略，我们使用 STREAM 基准测试演示和评估了在实际硬件上运行的经过训练的代理程序如何通过平衡功耗和应用性能来采取行动。

Aug, 2023

RISCLESS：一种利用未使用云资源的强化学习策略

RISCLESS 提供一种使用强化学习策略来利用未使用云资源的方法，它通过使用小比例的稳定按需资源与临时资源相结合，以保证客户的 SLA 并降低成本，使云提供商的利润平均增加 15.9％，违反 SLA 的时间平均减少 36.7％，并平均增加 19.5％使用的临时资源。

Apr, 2022

FSD-Inference：基于云通信的完全无服务器分布式推断

FSD-Inference 是第一个完全无服务器且高度可扩展的分布式机器学习推断系统，通过与 FaaS 计算相结合，探索了潜在的通信渠道，为无服务器数据密集型计算中的分布式机器学习设计了一种先进的解决方案。

Mar, 2024

Reclaimer: 基于强化学习的云微服务动态资源分配方法

本文介绍一种深度强化学习模型 Reclaimer，它可以适应微服务的数量和行为的运行时变化，从而在满足服务质量要求的情况下最小化 CPU 核心分配，我们的评估证明 Reclaimer 相对于行业标准缩放解决方案可将平均 CPU 内核分配降低 38.4％至 74.4％，相对于当前最先进的方法降低 27.5％至 58.1％。

Apr, 2023

迁移学习方法下的雾负载平衡的终身学习

对于基于强化学习的雾计算负载均衡，本文提出了一种终身学习框架，使用轻量级推理模型在部署期间最小化动作延迟，并在环境发生显著变化时进行重新训练，以提高性能、减少训练成本并适应这些变化。与现有文献相比，我们还应用了迁移学习来解决终身学习问题，尤其是在真实环境中从头开始学习时存在的失败概率问题。

Oct, 2023

多接入边缘计算中的服务器放置和工作负载分配强化学习框架

本研究提出了一种使用强化学习解决最小化网络延迟和边缘服务器数量的问题的新 RL 框架，该问题涉及云计算、多接入边缘计算、组合优化问题和马尔可夫决策过程。

Feb, 2022