Nov, 2013

连续迁移的聚类马尔可夫决策过程

TL;DR本文提出了一种算法,通过生成一个小且有效的源子集,以实现在强化学习中的全生命周期,基于策略重用的传递学习,从而代表已经学习完最佳策略的一组 MDP。同时,提出了一个聚类的框架,用于提取源子集,并通过在监控领域的实验证实了算法的有效性。