Oct, 2019

受约束强化学习具有零对偶间隙

TL;DR本文针对自主制约智能方面存在的困境进行研究,主要研究如何应用 Primal-Dual 方法使其具有收敛性。通过探究多目标收益函数,多目标学习和多目标值函数相结合等方法的局限性,提出 Primal-Dual 算法。与其他算法不同,本方法可以在把冲突目标转化为受限制 RL 问题后得到实际的最优解,具有收敛性,并且可以扩展到一些神经网络模型上。