Jul, 2016

通过最小化强鲁棒性基线遗憾实现安全策略改进

TL;DR该研究论文提出一种基于模型的方法,使用有限数据计算安全策略,并使用已知的准确性保证对系统的不准确动态模型进行分析,以直接最小化关于基线策略的(负)遗憾,从而改进基础策略并在准确动态的情况下连续地使用,在遇到不准确动态的情况下无缝地回退到基线策略。