Dec, 2013

在价值函数逼近中避免预测器和抑制剂的混淆

TL;DR本论文提出了一种解决值函数逼近中的预测器混淆问题的方法,该方法是分别预测奖励和惩罚的值,并将其纠正并相加以获得决策所需的值。