Dec, 2023
使用从稀疏奖励演示中学到的平滑引导奖励的策略优化
Policy Optimization with Smooth Guidance Rewards Learned from
Sparse-Reward Demonstrations
TL;DR通过使用离线演示算法,提出了一种名为Policy Optimization with Smooth Guidance (POSG)的简单高效的在线深度强化学习算法,该算法能够解决奖励反馈稀疏性的问题,并在稀疏奖励环境中实现可靠有效的长期信用分配以及有效的探索。