Oct, 2022
蒙特卡罗增强演员 - 评论家算法处理来自次优演示的稀疏奖励深度强化学习
Monte Carlo Augmented Actor-Critic for Sparse Reward Deep Reinforcement Learning from Suboptimal Demonstrations
Albert Wilcox, Ashwin Balakrishna, Jules Dedieu, Wyame Benslimane, Daniel S. Brown...
TL;DR提供 RL 算法的稠密形状奖励函数往往非常具有挑战性,因此发展能够从易于指定的稀疏奖励函数中学习的 RL 算法已成为研究动机。为解决因奖励稀疏性而引入的新的探索挑战,我们引入了 Monte Carlo 增强 Actor Critic (MCAC),发现它可以显著提高学习效率。