Jul, 2019

软基线增强的安全策略改进

TL;DR本文通过采用基于基线的自举算法(SPIBB),允许在更广泛的策略集合上进行策略搜索,通过控制局部模型不确定性来约束政策变化,对捕获不良行为的风险进行更全面的评估,实验结果表明相对于现有的SPI算法,本文提出的方法在有限MDP和具有神经网络函数近似的无限MDP上均有显着提高。