Apr, 2021

强化学习中基于离线策略的状态值估计的广义投影贝尔曼误差

TL;DR本文介绍了一种基于非线性机器学习的强化学习算法,该算法使用一种新的广义均方投影贝尔曼误差作为目标函数,可提高算法的稳定性和性能。