Apr, 2024

基于近端策略优化的智能家庭太阳能管理

TL;DR通过基于 Proximal Policy Optimization (PPO) 的框架,使用循环奖励模型来最大化利润,相比其他简单算法在累积总利润方面取得了 30%以上的改进,该方法在复杂领域如金融市场中进行增强学习算法以规划行动方面表现出良好的潜力,同时提出了一种基于孤立波的长序列嵌入新方法,在使用随机浮点数据增强时表现优于普通嵌入方法。