Jun, 2024

反思式策略优化

TL;DR该论文介绍了一种新的基于策略的扩展方法——反思性策略优化(RPO),它将过去和未来的状态-动作信息结合起来以进行策略优化,从而使智能体能够自我审视并在当前状态下修改其动作。理论分析证实了政策绩效的递增和解集空间的收缩,从而加快了收敛过程。经验证据表明,在两个强化学习基准测试中,RPO在样本效率方面表现出了显著的优势。