Jun, 2021

基于模型的强化学习控制策略优化中的隐式微分技术

TL;DR本文提出了一种端到端的方法,采用隐式微分直接优化期望回报,以求克服最大似然方法在模型不匹配或表示能力有限的情况下出现的缺点。具体来说,我们将一个满足模型引导的贝尔曼最优算符的值函数视为模型参数的隐函数,并展示了如何对该函数进行微分。理论和实证实验证明了该方法在模型失配情况下相对于基于最大似然方法的优势。