May, 2018

强化学习与控制的概率推断:教程与综述

TL;DR该研究介绍了一种基于最大熵的强化学习或最优控制方法,该方法在确定性动力学和随机动力学方面分别相当于精确概率推断和变分推断,并探讨了相关算法和未来研究方向。