Nov, 2024

利用任务预测加速近端策略优化学习以解决延迟奖励环境

TL;DR本研究解决了强化学习中的延迟奖励问题,尤其是近端策略优化(PPO)性能下降的挑战。我们提出了一种混合策略架构和基于时间窗口时序逻辑的奖励塑形机制,相比于标准PPO,该方法在学习速度和最终表现上均有所提升,证明了其在使用离线数据的同时仍能保持PPO的理论保证。