May, 2022

基于 QP 和 MPC 的强化学习之间的桥梁

TL;DR本文采用基于 QP(Quadratic Programs)的方法,取代采用 DNN 的方法来学习 RL 中的价值函数和策略,以此提高其可解释性和简化结构,并且给出了调整可解释性和简化结构的方法。