我们提出了基于近端策略优化的概率约束强化学习算法,通过使用 Lagrangian relaxation 将约束优化问题转换为无约束目标,从而在先进的核电厂设计中实现了最小违规距离和违规率。
Jan, 2024
在核反应堆优化中,引入了适用于强化学习的 OpenNeoMC 框架的新型基准问题,通过蒙特卡洛方法和机器学习技术的结合,提出了在具有不同物理区域的单元反应堆中优化中子通量的挑战,通过演化算法和神经进化算法的模拟,证明了强化学习在复杂优化中的有效性,并提议了 OpenNeoMC 框架中的加速技术来加快模拟时间。
Mar, 2024
通过使用深度强化学习技术,本研究在核微堆设计的高保真模拟中使用 PPO 和 A2C 算法,训练智能控制代理器以寻找最佳控制策略,以降低运营和维护成本,并实现自主运行。
Jun, 2024
通过引入 PEARL 方法,该论文解决了多目标问题在工程学领域中评估候选解的耗时问题,并通过学习单一策略替代传统基于策略的多目标强化学习方法,实现了同时解决简单子问题而无需多个神经网络的目标。
Dec, 2023
该研究介绍了一种深度强化学习框架,用于优化可再生能源和储能发电厂的操作,以最大化能源市场收益,同时最小化储能损耗成本和可再生资源废弃。
Jun, 2023
应用深度强化学习算法解决最优潮流问题,介绍了两种解决该问题的经典算法,讨论了 Vanilla DRL 应用的缺点,并提出了改进性能的算法,同时提出了 OPF 奖励函数,以解决 DRL 内在问题。
May, 2022
对于加拿大阿尔伯塔省的案例研究中,通过将西门子公司提供的热力学软件纳入环境模型,并通过模拟不确定性,如电力价格、负载和环境条件的变化,我们实施了三种常见的深度强化学习算法来处理经济型燃气轮机调度问题。在所测试的算法和基准方法中,深度 Q 网络(DQN)获得了最高的奖励,而近端策略优化(PPO)是最高效的方法。我们进一步提出并实施了一种动态分配燃气轮机运行和维护成本的方法,基于运行时间和循环数,与现有方法相比,我们的方法更好地近似了现代燃气轮机调度的真实成本,因此导致了更现实的策略。
Aug, 2023
本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题,同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中,我们的解决方案在两个轨道中均名列第一,能够有效管理电网并确保其地安全性。
Jun, 2021
本文介绍了一种使用强化学习初值方法框架来改善启发式算法的初始解决方案的方法,并在 NP 完全的装箱问题上的实验中展示了 RLHO 方法比我们的基线表现更好。
Jun, 2019
本研究首次探讨使用深度强化学习在智能电网环境下实现建筑能源管理系统的在线调度优化,所提出的方法被验证可用于大规模数据资源中,如 Pecan Street Inc. 数据库,并且可以提供实时反馈以鼓励电能的更高效利用。
Jul, 2017