Oct, 2022

蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习

TL;DR提供 RL 算法的稠密形状奖励函数往往非常具有挑战性,因此发展能够从易于指定的稀疏奖励函数中学习的 RL 算法已成为研究动机。为解决因奖励稀疏性而引入的新的探索挑战,我们引入了 Monte Carlo 增强 Actor Critic (MCAC),发现它可以显著提高学习效率。