ICMLApr, 2019

神经逻辑强化学习

TL;DR本文提出了一种名为神经逻辑强化学习(NLRL)的新算法,基于策略梯度方法和可微分归纳逻辑编程,通过一阶逻辑来表示强化学习中的策略,解决了深度神经网络难以解释和学习泛化能力低的问题。实验表明,该算法可以在不同的环境下归纳出解释性强且性能接近最优的策略。