AAAIOct, 2021

学习悲观主义以实现鲁棒和高效的离策略强化学习

TL;DR本文提出一种新的学习策略 —— 广义悲观学习(GPL),其利用可学习的罚值对目标回报进行悲观估计,在双 TD-learning 方法下训练策略评估模型,有效解决了时序差分学习过程中的过度估计偏差和悲观偏差问题,在传统的强化学习算法中取得了最先进的水平。