InfraLib：为大规模基础设施管理启用强化学习和决策制定

Sep, 2024

InfraLib：为大规模基础设施管理启用强化学习和决策制定

InfraLib: Enabling Reinforcement Learning and Decision Making for Large Scale Infrastructure Management

Pranay Thangeda, Trevor S. Betz, Michael N. Grussing, Melkior Ornik

TL;DR本研究解决了基础设施管理中面对的大规模、随机退化和资源限制等挑战。提出的InfraLib框架通过分层随机方法，提供了现实的基础设施系统建模与分析。研究表明，InfraLib能够有效支持基础设施管理的政策优化，具有重要的实际应用潜力。

Abstract

Efficient management of infrastructure systems is crucial for economic stability, sustainability, and public safety. However, Infrastructure Management is challenging due to the vast scale of systems, stochastic deterioration of components, partial observability, and resource constrain

发现论文，激发创造

基于贝叶斯网络和深度强化学习的具有概率依赖性的退化系统的推断和动态决策

本文提出了一种面向环境退化的工程系统的决策算法框架，通过部分可观察性马尔可夫决策过程来处理决策问题，采用深度去中心化多智能体演员-评论家强化学习方法对其进行优化, 在工程领域实验表明，DDMAC策略较之现状启发式方法提供了实质性的优势，并且DDMAC策略已内在地考虑了系统效应。

Sep, 2022

IMP-MARL: 基于多智能体强化学习的大规模基础设施管理规划环境套件

我们介绍了IMP-MARL，它是一个开源的多智能体强化学习环境套件，用于大规模基础设施管理规划，它为协作MARL方法在实际工程应用中的可伸缩性提供了一个基准平台。

Jun, 2023

基于深度强化学习的POMDP推断和鲁棒解决方案：铁路最优维护应用

本文提出一个结合推断和强化学习的框架，通过深度强化学习对POMDP问题进行鲁棒解决。通过Markov Chain Monte Carlo抽样来联合推断出所有的转换和观察模型参数，并将参数分布通过域随机化融入到模型不确定性的解决中，解决该方法适用于铁路资产维护规划等实际问题。

Jul, 2023

MetaBox: 具备增强学习的元黑盒优化的基准平台

最近，利用强化学习在元级别上提升元黑盒优化器的能力的MetaBBO-RL已经展示出了强大的潜力，然而该领域因缺乏统一的基准而受限。为了填补这一空白，我们引入了第一个专门为开发和评估MetaBBO-RL方法而量身定制的基准平台MetaBox。MetaBox提供了一个灵活的算法模板，允许用户在该平台内轻松实施其独特的设计。此外，它还提供了300多个问题实例，从合成到现实场景的广泛覆盖，并拥有19种基准方法的广泛库，包括传统黑盒优化器和最新的MetaBBO-RL方法。此外，MetaBox引入了三个标准化的性能指标，以便更全面地评估方法。为了展示MetaBox在促进严谨评估和深入分析方面的实用性，我们对现有的MetaBBO-RL方法进行了广泛的基准研究。我们的MetaBox是开源的，并且可以在这个https的URL上访问。

Oct, 2023

水力分布网络实际应用中优化泵站可持续性的混合强化学习

本文介绍了一种改进的“混合强化学习”方法，通过将强化学习与历史数据相结合，提高了泵站调度优化的可操作性，增强了智能体的行为解释能力，并最小化错误，从而显著改善了实际水配管网络的可持续性、操作效率和对新出现情况的动态适应能力。

Oct, 2023

基于集中训练和分散执行的多智能体深度强化学习在交通基础设施管理中的应用

我们提出了一个多智能体深度强化学习框架，用于管理大型交通基础设施系统的全生命周期。该框架通过约束的部分可观测马尔可夫决策过程，解决了在存在不确定性、风险考量和有限资源的情况下，对交通基础设施进行优化管理的问题。通过开发一种名为DDMAC-CTDE的Deep Decentralized Multi-agent Actor-Critic方法，该框架在美国弗吉尼亚州的一个具有代表性和现实性的交通网络应用中展示了优越的性能。与传统的管理策略相比，该方法在真实约束和复杂性下提供了近乎最优的解决方案。

Jan, 2024

基于效用的基础设施维护优化的深度多目标强化学习

该研究介绍了一种多目标深度集中式多智能体演员-评论家方法，用于基础设施维护优化，这是传统上由单目标强化学习方法主导的领域。通过应用MO-DCMAC方法，我们在多个维护环境中评估了MO-DCMAC，并将其与基于启发式规则的传统策略进行了比较，结果表明MO-DCMAC在各种环境和效用函数中优于传统策略。

Jun, 2024

基于多状态退化和深度强化学习的下水道管道维护策略

大规模基础设施系统的有效管理需要考虑各种复杂性的战略预测和干预方法。我们的研究针对 Prognostics and Health Management (PHM) 框架在污水管道资产中的两个挑战：建立模型以表示不同严重程度水平的管道退化，并开发有效的维护政策。我们采用多状态退化模型 (MSDM) 来表示污水管道的随机退化过程，并使用深度强化学习 (DRL) 来制定维护策略。荷兰污水网络的案例研究充分证明了我们的方法。我们的研究结果表明该模型在生成智能、节省成本的维护策略方面的有效性超过了启发式方法。它根据管道的年龄来调整管理策略，对于较新的管道采取被动策略，对于较旧的管道转为主动策略，以防止故障并降低成本。本研究凸显了深度强化学习在优化维护政策方面的潜力。未来的研究将致力于改进该模型，包括引入部分可观测性、探索各种强化学习算法，并将此方法扩展至综合基础设施管理。

Jul, 2024

利用强化学习进行气候适应：哥本哈根的洪水与交通实验

本研究解决了城市在气候变化下对抗极端降雨引发的洪水风险的不足。通过应用强化学习，研究识别出实施适应措施的最佳时机和地点，以降低洪水的直接和间接影响。初步结果表明，该方法能够显著提升决策能力，优化城市特定区域的干预措施优先级。

Sep, 2024

学习弥合差距：通过规划和强化学习实现高效的新颖性恢复

本研究解决了自主机器人在复杂环境中应对新颖情况的决策问题。通过引入一种“桥接策略”，利用强化学习快速适应环境变化，提高了模型在长时间跨度任务中的效率和灵活性。实验表明，该方法比传统的强化学习基线更快速有效，并且具有良好的可推广性，能与规划方法结合，处理更复杂的任务。

Sep, 2024