RISCLESS:一种利用未使用云资源的强化学习策略
本文介绍一种深度强化学习模型 Reclaimer,它可以适应微服务的数量和行为的运行时变化,从而在满足服务质量要求的情况下最小化 CPU 核心分配,我们的评估证明 Reclaimer 相对于行业标准缩放解决方案可将平均 CPU 内核分配降低 38.4%至 74.4%,相对于当前最先进的方法降低 27.5%至 58.1%。
Apr, 2023
当 Exascale 计算成为现实时,云数据中心的计算节点能源需求将继续增长。在系统其他方面经历瓶颈时,降低硬件组件的功耗是减少能源需求的常见方法之一。然而,设计一个能够实时检测和限制功耗的资源控制器是一个复杂的问题,可能会对应用性能产生不利影响。本文中,我们探索使用强化学习(RL)设计云计算节点上的功耗限制策略,利用当前功耗和瞬时应用性能(心跳)的观测。通过将 Argo Node Resource Management(NRM)软件堆栈与 Intel Running Average Power Limit(RAPL)硬件控制机制相结合,设计一个代理程序来控制处理器的最大供电功率,而不会影响应用性能。利用 Proximal Policy Optimization(PPO)代理程序在计算节点的数学模型上学习最优策略,我们使用 STREAM 基准测试演示和评估了在实际硬件上运行的经过训练的代理程序如何通过平衡功耗和应用性能来采取行动。
Aug, 2023
通过将模型无关的循环强化学习(Recurrent RL)代理与最先进的 PPO 算法相结合,我们研究了用于函数自动缩放的模型无关的 Recurrent RL 代理,并将其与基于阈值的函数自动缩放进行了比较,发现循环策略能够捕捉环境参数并在函数自动缩放方面显示出有希望的结果。除此之外,我们将基于 PPO 的自动缩放代理与商业使用的基于阈值的函数自动缩放进行了比较,并认为基于 LSTM 的自动缩放代理能够提高吞吐量 18%,函数执行速度 13%,并支持多出 8.4%的函数实例。
Aug, 2023
基于容器虚拟化的云原生无线网络架构,应用深度强化学习算法来监控网络状态和动态分配资源,优化了网络分片和多接入边缘计算等场景的资源分配,大幅提高了网络效率。
May, 2023
本文针对云服务商超额订阅资源的使用问题,提出了一种基于概率约束优化和多智能体强化学习的超额订阅策略,实验表明该方法可以在不同安全约束条件下提高资源利用率 (20%~86%)。
Nov, 2022
本文介绍了动态平衡策略,旨在在云端和边缘节点之间进行数据交换并学习最有效的资源管理策略,以最大程度地减少学习过程的开销,同时尽可能地提高用户的服务质量。
Nov, 2022
提出了一种 RAPID 框架,它能够在高度动态的操作环境中实现快速的、完全在线的资源分配策略学习,从而有效地共享资源,提高服务利用率和降低所有权成本。RAPID 利用轻量级的 QoS 预测,通过启用领域知识启发技术来实现样本效率和偏差降低,以比先前的工作快几个数量级的速率来指导策略学习,从而实现学习稳定的资源分配策略,提高 QoS 9 倍,并提高了 19-43% 的最佳努力工作性能。
Apr, 2023
本文通过使用机器学习优化技术,提出了一种创新的方法来解决云计算资源调度和管理中的复杂问题,通过对云环境中低资源利用率和负载不平衡等挑战的深入研究,本研究提出了包括深度学习和遗传算法等优化方法在内的全面解决方案,以提高系统性能和效率,从而在云计算资源管理领域带来新的突破和进展。合理分配资源在云计算中起着至关重要的作用。
Feb, 2024