Jun, 2018

可配置马尔可夫决策过程

TL;DR本文提出了一种新的框架 Configurable Markov Decision Processes (Conf-MDPs),以建立环境参数配置与学习代理之间的交互模型,并通过 Safe Policy-Model Iteration (SPMI) 算法,共同自适应优化策略与环境配置,实验结果表明该方法对提高学习策略的性能有益。