Nov, 2013
连续迁移的聚类马尔可夫决策过程
Clustering Markov Decision Processes For Continual Transfer
M. M. Hassan Mahmud, Majd Hawasly, Benjamin Rosman, Subramanian Ramamoorthy
TL;DR本文提出了一种算法,通过生成一个小且有效的源子集,以实现在强化学习中的全生命周期,基于策略重用的传递学习,从而代表已经学习完最佳策略的一组 MDP。同时,提出了一个聚类的框架,用于提取源子集,并通过在监控领域的实验证实了算法的有效性。