Feb, 2024

光滑 MDPs 中的无悔强化学习

TL;DR为了解决在连续状态和 / 或动作空间中得到强化学习(RL)无后悔保证仍然是该领域的主要挑战之一,本论文引入了一种新的结构性假设,即 $ u-$ 平滑性,它概括了迄今已提出的大多数设置(如线性 MDPs 和 Lipschitz MDPs),我们提出了两种算法,在 $ u-$ 平滑 MDPs 中对后悔进行最小化,这两种算法都建立在利用基于 Legendre 多项式的正交特征映射来构建 MDP 表示的思想上,第一种算法 extsc {Legendre-Eleanor} 在较弱的假设下实现无后悔属性,但计算效率低,而第二种算法 extsc {Legendre-LSVI} 虽然运行时间是多项式级别,但适用于较小的问题类别,经分析它们的后悔性能,我们将结果与 RL 理论的最新成果进行了比较,表明我们的算法达到了最佳保证。