一种智能无服务器函数的深度递归强化学习方法

Aug, 2023

一种智能无服务器函数的深度递归强化学习方法

A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions

Siddharth Agarwal, Maria A. Rodriguez, Rajkumar Buyya

TL;DR通过将模型无关的循环强化学习（Recurrent RL）代理与最先进的 PPO 算法相结合，我们研究了用于函数自动缩放的模型无关的 Recurrent RL 代理，并将其与基于阈值的函数自动缩放进行了比较，发现循环策略能够捕捉环境参数并在函数自动缩放方面显示出有希望的结果。除此之外，我们将基于 PPO 的自动缩放代理与商业使用的基于阈值的函数自动缩放进行了比较，并认为基于 LSTM 的自动缩放代理能够提高吞吐量 18％，函数执行速度 13％，并支持多出 8.4％的函数实例。

Abstract

function-as-a-service (FaaS) introduces a lightweight, function-based cloud execution model that finds its relevance in applications like IoT-edge data processing and anomaly detection. While CSP offer a near-infinite function elasticity, these applications often experience fluctuating

function-as-a-service cloud execution model autoscaling recurrent rl agent function autoscaling

发现论文，激发创造

强化学习（RL）增强冷启动频率减少在无服务器计算中的应用

通过使用强化学习减少冷启动频率，以提高函数即时初始化效果的解决方案的实现与评估。

Aug, 2023

无服务器计算中深度强化学习的综述：函数调度与资源自动扩展

该论文综述了深度强化学习技术在无服务器计算的函数调度和资源扩展领域的应用，分析了各种算法、模型和性能，发现深度强化学习在提高函数调度和资源扩展效率方面取得了有希望的结果，同时也指出了需要解决的挑战和未来研究方向。

Oct, 2023

基于长短期记忆循环神经网络的自动云资源缩放算法

该研究提出了一种基于机器学习和神经网络的动态阈值自动扩展算法，以实现云计算中资源的自适应扩展，实验结果表明该算法优于其他算法。

Jan, 2017

预测性自动缩放中的持续学习

在动态云环境中，使用预测自动缩放来预测服务器的工作负载，并提前准备资源以确保服务水平目标（SLOs）。然而，在实践中，由于外部事件（例如销售促销活动和应用程序重新配置）导致的异常流量，其预测任务通常会遭受性能下降的影响。针对这个问题，我们提出了一种基于回放的持续学习方法，即基于密度的内存选择和基于提示的网络学习模型（DMSHM），只使用历史记录的一小部分来实现准确的预测。我们同时还展示了 DMSHM 在真实工业应用中杰出的实用性。

Jul, 2023

数据中心计算节点功耗降低的性能感知增强学习方法

当 Exascale 计算成为现实时，云数据中心的计算节点能源需求将继续增长。在系统其他方面经历瓶颈时，降低硬件组件的功耗是减少能源需求的常见方法之一。然而，设计一个能够实时检测和限制功耗的资源控制器是一个复杂的问题，可能会对应用性能产生不利影响。本文中，我们探索使用强化学习（RL）设计云计算节点上的功耗限制策略，利用当前功耗和瞬时应用性能（心跳）的观测。通过将 Argo Node Resource Management（NRM）软件堆栈与 Intel Running Average Power Limit（RAPL）硬件控制机制相结合，设计一个代理程序来控制处理器的最大供电功率，而不会影响应用性能。利用 Proximal Policy Optimization（PPO）代理程序在计算节点的数学模型上学习最优策略，我们使用 STREAM 基准测试演示和评估了在实际硬件上运行的经过训练的代理程序如何通过平衡功耗和应用性能来采取行动。

Aug, 2023

基于深度强化学习的 V2N 服务扩展

本文使用深度强化学习的方法解决边缘计算中垂直缩放的问题，为车联网通信提供支持，实验表明，与现有解决方案相比，该方法可以降低至少 23％的 CPU 使用率，同时增加 24％的长期收益。

Jan, 2023

面向分散网络系统的可扩展基于模型的策略优化

本文旨在提高多智能体控制的数据效率，采用基于模型的学习方式，通过多个代理通过本地通信进行合作完成任务，实现分散的基于模型的策略优化框架，提出了扩展的价值函数，理论上证明了产生的策略梯度是真实策略梯度的一个紧密近似，并在智能交通系统的多项基准测试上展示了出色的数据效率和与真实模型的无模型方法匹配的性能。

Jul, 2022

基于代理模型的连续变动供应链建模

该研究探讨了在不同策略要求的环境中，代理人能否控制变化的供应链问题，避免长时间未见任务导致的灾难性遗忘，通过对比不同算法的性能发现，在不同程度的随机性环境中，将学习策略适用于连续变化的供应链情境中是不同的，并且具有记忆历史的算法在应对极端任务的变化中表现较好。

Dec, 2023

使用深度强化学习处理不确定的季节性需求和交货时间的多级供应链

探讨了多级供应链中的生产计划和分配问题，利用深度增强学习技术 Proximal Policy Optimization（PPO2）来解决非线性不确定需求的问题，结果表明在有不确定性情况下，该方法更具优势。

Jan, 2022

规模化即是所需：利用 JAX 加速强化学习训练自动驾驶强化策略

通过大规模强化学习应用于自动驾驶，分析了在实验规模逐渐扩大时由此产生的策略表现以及对策略表现的主要影响因素。

Dec, 2023