Feb, 2013

强化学习中的状态表示选择

TL;DR该研究论文研究了强化学习中选择正确的状态表示问题,提出了一种算法在不知道正确模型的情况下获得尽可能多的奖励。