Jun, 2009

特征强化学习:第一部分:非结构化MDPs

TL;DR本文研究如何自动化减少任务的状态表达,以将通用的智能学习机设定为MDP框架,从而扩大许多现有强化学习算法和使用它们的机器人的范围,并开发一种形式化的客观标准作为搜索可行MDPs的指导,并在算法中将各个部分整合到一起。