- 混合异构集群能降低 LLM 推断工作负载的能耗
减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型,使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务,以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任 - ICML协同异质因果推断 —— 超越元分析
本研究提出了一种用于处理异质数据的协作逆倾向得分加权估计器,在协作中调整分布转移,从而在异质性增加时显著提高性能,提出了一种联邦学习算法来在保持隐私的同时协作训练结果模型,并通过合成和真实数据集展示了方法的优势。
- 可配置的 Python 数据中心模型用于可持续冷却和机器学习整合
这篇论文介绍了 PyDCM,它是一个 Python 库,可用于快速构建数据中心的设计和应用强化学习控制,以评估关键的可持续发展指标,包括碳足迹、能源消耗和温度热点等。同时对比了现有 EnergyPlus 对数据中心建模的方法。
- AAAI数据中心数字孪生的可持续性与强化学习
机器学习对数据中心的设计与优化提出了巨大挑战,为了减少能源消耗和碳排放,本研究开发了 DCRL-Green,一个多主体强化学习环境,用于设计数据中心并研究、开发和改进控制器以减少碳足迹。
- 游戏理论深度强化学习在地理分布式数据中心中最小化 AI 推断工作负载的碳排放和能源成本
通过结合博弈论和深度强化学习的方法,本研究在地理分布的数据中心中优化 AI 推理工作负载的分配,以降低碳排放和云服务成本,同时保持性能。实验证明,该策略在减少碳排放和云服务成本方面优于现有技术,并且不会损害计算性能。这对处理不同地理位置的 - 云数据中心中计算和冷却能量的动态管理的启发式算法和元启发式算法
通过结合元启发式和最佳适应性递减算法,提出新的关于功耗和热管理的策略和模型,以实现数据中心的能源效率提升,包括数据中心的计算和冷却设施,在保持服务质量的同时,提高高达 21.74% 的能源效率。
- 通过中央控制优化数据中心网络中的交互流
数据中心网络中的两个问题,一是快速通行是一个集中式的零队列数据中心网络,通过重新设计其中央仲裁器的时间片分配器,使其在扩容至 12 核和支持 1024 个节点、7.1 Terabits 的网络流量方面有线性规模;二是拥塞控制问题,我们提出了 - AI 模型的隐蔽水足迹揭示与应对
研究人工智能模型水印记对全球淡水资源已成为比二氧化碳排放更加紧迫的挑战之一,本文提出了估计 AI 模型水印记的方法,讨论了其时空多样性。文章高亮指出,需要综合解决 AI 的水印记与碳印记问题才能实现可持续 AI 发展。
- 使用强化学习控制商用冷却系统
本文介绍了 DeepMind 与谷歌最近关于强化学习在商业制冷系统控制方面的最新工作的技术概述。通过在谷歌数据中心更加高效地冷却的专业知识为基础,在与楼宇管理系统供应商特兰科技的合作中,在两个真实世界的设施上进行了实时实验,希望我们描述这些 - 运行时数据中心温度预测技术的语法演化应用
本研究利用语法进化技术,生成数据中心温度模型并预测 CPU 和进气口温度,在减少冷却成本、增强能量效率方面具有重要意义。通过实际数据中心场景的跟踪,结果表明可以完全预测数据室中服务器的温度,并且预测误差分别低于 2℃ 和 0.5℃ 的 CP - 以马尔可夫潜在博弈方法学习分布式和公平的网络负载均衡策略
本文利用多智能体强化学习框架,研究了数据中心(DCs)中多个负载均衡器(LBs)的网络负载均衡问题。将多智能体负载均衡问题表示为马尔科夫潜在博弈,并提出了一种全分布式的 MARL 算法,通过仿真实验证明了该算法的优越性。
- 基于排名聚合和多目标优化的数据中心漏洞风险优先级评价
本文主要阐述数据中心的漏洞问题和解决方案,介绍多目标优化技术在漏洞管理中的应用,以及如何开发一个有效的模型来优化漏洞的安全风险排序。
- 通过速度缩放学习增强能量最小化
本文介绍了一种基于机器学习的动态在线速度缩放算法,以最小化数据中心的能源消耗,并提供了理论和实验证据来支持其效果。
- 走向地理分布式机器学习
该论文介绍了一种名为 GDML 的新型学习问题,旨在解决全球分布式数据的学习问题,提出了一种新的方法进行地理分布式培训,可同时应对法规制约和隐私等问题,并在三个真实数据集上进行了实证评估。
- MDS 队列:分析纠错码的延迟性能
本文研究基于 MDS 码的数据存储系统,通过队列理论分析其表现,并提供上下界的调度策略。同时,利用 MDS 队列的框架分析了分布式数据存储中不同方法执行降级读取的情况。