Jul, 2016
通过最小化强鲁棒性基线遗憾实现安全策略改进
Safe Policy Improvement by Minimizing Robust Baseline Regret
Marek Petrik, Yinlam Chow, Mohammad Ghavamzadeh
TL;DR该研究论文提出一种基于模型的方法,使用有限数据计算安全策略,并使用已知的准确性保证对系统的不准确动态模型进行分析,以直接最小化关于基线策略的(负)遗憾,从而改进基础策略并在准确动态的情况下连续地使用,在遇到不准确动态的情况下无缝地回退到基线策略。