Dec, 2015

通过软更新降低强化学习中的噪声

TL;DR提出 G-learning 算法用于强化学习领域,该算法通过对决策策略进行惩罚,实现了对值函数估计的减少偏差,从而在学习过程的初期能够有更快的收敛速度并降低学习成本。