基于近端策略优化的智能家庭太阳能管理

Apr, 2024

基于近端策略优化的智能家庭太阳能管理

A proximal policy optimization based intelligent home solar management

Kode Creer, Imitiaz Parvez

TL;DR通过基于 Proximal Policy Optimization (PPO) 的框架，使用循环奖励模型来最大化利润，相比其他简单算法在累积总利润方面取得了 30％以上的改进，该方法在复杂领域如金融市场中进行增强学习算法以规划行动方面表现出良好的潜力，同时提出了一种基于孤立波的长序列嵌入新方法，在使用随机浮点数据增强时表现优于普通嵌入方法。

Abstract

In the smart grid, the prosumers can sell unused electricity back to the power grid, assuming the prosumers own →

smart grid prosumers renewable energy sources storage units proximal policy optimization

发现论文，激发创造

基于近端策略优化的深度强化学习在奶牛养殖中的电池管理方法

通过最大化利用可再生能源并应用深度强化学习算法（DRL）的近端政策优化（PPO）方法，研究提高电力效率、减少环境影响，从而提高奶牛养殖中的能源管理和可持续性。实证结果表明，相较于 Q 学习算法，PPO 方法可以减少 1.62% 的电力从电网进口，显著提高了奶牛养殖中的能源效率和可持续性。

Jul, 2024

近端策略优化算法

本研究提出了一种新的针对增强学习的策略梯度方法，称为近端策略优化 (PPO)，通过与环境的交互采样数据，并使用随机梯度上升优化 “替代” 目标函数，不同于标准的策略梯度方法，该方法可以实现多个小批量更新周期，实验结果表明 PPO 在模拟机器人运动和 Atari 视频游戏玩耍等基准任务上的表现优于其他在线策略梯度方法，同时在样本复杂度、实现简单性和时间效率等方面取得了有利的平衡。

Jul, 2017

使用强化学习的 P2P 能源系统能源定价

该研究介绍了一种基于强化学习框架的价格优化方法，以帮助解决分布式可再生能源和能源消费带来的价格不确定性问题，实现点对点微电网的实际部署。实验结果表明：该框架可灵活应对微电网各个组成部分的利益，对消费者和多余发电者的数量比例也有所考虑，并且能够在不同的电池容量情况下实现系统的利润最大化。

Oct, 2022

乐观的近端策略优化

本研究通过提出一种基于乐观策略优化的方法（Optimistic Proximal Policy Optimization，OPPO），针对奖励稀少的领域，考虑了总收益的不确定性并在此基础上对策略进行乐观评估，从而优化自主代理的学习效果，实现了在表格任务上优于现有方法的结果。

Jun, 2019

基于动作集的安全电网管理策略优化

本文提出了一种基于搜索规划算法的新方法解决强化学习中存在的环境约束问题，同时采用黑盒策略优化的进化策略来训练策略直接优化。在 NeurIPS L2RPN 竞赛中，我们的解决方案在两个轨道中均名列第一，能够有效管理电网并确保其地安全性。

Jun, 2021

序列生成的近端策略优化及其动态版本

本论文提出了使用动态的 PPO 算法来替换 policy gradient 来更有效地完成序列生成任务（包括虚假聊天机器人），并展示了 PPO 和 PPO-dynamic 相对于 policy gradient 算法在稳定性和性能上的优越性。

Aug, 2018

使用课程学习和奖励工程的近端策略优化解决实际优化问题

我们通过课程学习原则和细致的奖励工程，使用近端策略优化（PPO）智能体对一个现实世界中的高吞吐量垃圾分类设施进行训练，以达到优化操作安全、优化处理量和最小化资源使用的竞争目标，并将其逐渐应用于更加复杂的环境动力学中，同时完善奖励机制，从而提高推理时间安全性并提高垃圾分类工厂的效率。

Apr, 2024

能量与频率调节市场联合竞标的基于近端策略优化的强化学习

本文将储能系统的竞标问题建模为马尔可夫决策过程，并利用深度强化学习算法 Proximal Policy Optimization 在澳大利亚国家电力市场历史数据上学习优化竞标策略，实现储能系统在现货和 FCAS 市场上的联合竞标并取得显著利润。

Dec, 2022

重新审视近端策略优化中的设计选择

本文介绍了 Proximal Policy Optimization (PPO) 算法，探讨了算法的设计和实现，指出了标准实现方式中存在的三个失败模式，提出了替代方案。同时，本文认为我们应该注意算法的设计与模拟环境之间的关系。

Sep, 2020

自动驾驶车辆的强化学习策略的定量与定性评估

优化自动驾驶车辆的交通动态是至关重要的，本文通过采用强化学习算法 —— 近端策略优化（PPO），得出用于最小化交通拥堵和污染的自动驾驶车辆选择的新方法，并通过实证分析证明该方法可以降低时间和污染水平。

Sep, 2023