ICMLJul, 2018

基于程序综合的混合优化强化学习方法

TL;DR本论文提出一种 MORL 的框架,通过程序合成技术实现对基于神经网络的黑箱模型深度强化学习策略的改进,得到符号表示形式,使其可以被手动或自动调试,经过行为克隆和梯度下降法的改进,不断迭代直到满足所需约束,在 CartPole 问题上的实例研究表明该方法能够进行高效的策略学习改进。