May, 2024

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

TL;DR该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程,并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况,并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性,引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题,并对其性质进行了深入分析。其次,采用线性函数逼近器和随机化方法,即场景方法和相关的概率可行性保证,为逆问题提供了 ε- 最优解。对于所需的近似精度,进一步讨论了样本复杂度。最后,针对只有有限一组专家示范和生成模型可供使用的更加现实的情况,给出了使用样本时产生的误差界限。