基于近端策略优化的智能家庭太阳能管理
通过最大化利用可再生能源并应用深度强化学习算法(DRL)的近端政策优化(PPO)方法,研究提高电力效率、减少环境影响,从而提高奶牛养殖中的能源管理和可持续性。实证结果表明,相较于 Q 学习算法,PPO 方法可以减少 1.62% 的电力从电网进口,显著提高了奶牛养殖中的能源效率和可持续性。
Jul, 2024
本研究提出了一种新的针对增强学习的策略梯度方法,称为近端策略优化 (PPO),通过与环境的交互采样数据,并使用随机梯度上升优化 “替代” 目标函数,不同于标准的策略梯度方法,该方法可以实现多个小批量更新周期,实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法,同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。
Jul, 2017
该研究介绍了一种基于强化学习框架的价格优化方法,以帮助解决分布式可再生能源和能源消费带来的价格不确定性问题,实现点对点微电网的实际部署。实验结果表明:该框架可灵活应对微电网各个组成部分的利益,对消费者和多余发电者的数量比例也有所考虑,并且能够在不同的电池容量情况下实现系统的利润最大化。
Oct, 2022
本研究通过提出一种基于乐观策略优化的方法(Optimistic Proximal Policy Optimization,OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,从而优化自主代理的学习效果,实现了在表格任务上优于现有方法的结果。
Jun, 2019
本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题,同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中,我们的解决方案在两个轨道中均名列第一,能够有效管理电网并确保其地安全性。
Jun, 2021
本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务(包括虚假聊天机器人),并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。
Aug, 2018
我们通过课程学习原则和细致的奖励工程,使用近端策略优化(PPO)智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练,以达到优化操作安全、优化处理量和最小化资源使用的竞争目标,并将其逐渐应用于更加复杂的环境动力学中,同时完善奖励机制,从而提高推理时间安全性并提高垃圾分类工厂的效率。
Apr, 2024
本文将储能系统的竞标问题建模为马尔可夫决策过程,并利用深度强化学习算法 Proximal Policy Optimization 在澳大利亚国家电力市场历史数据上学习优化竞标策略,实现储能系统在现货和 FCAS 市场上的联合竞标并取得显著利润。
Dec, 2022
本文介绍了 Proximal Policy Optimization (PPO) 算法,探讨了算法的设计和实现,指出了标准实现方式中存在的三个失败模式,提出了替代方案。同时,本文认为我们应该注意算法的设计与模拟环境之间的关系。
Sep, 2020
优化自动驾驶车辆的交通动态是至关重要的,本文通过采用强化学习算法 —— 近端策略优化(PPO),得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法,并通过实证分析证明该方法可以降低时间和污染水平。
Sep, 2023