度量空间中的高效无模型强化学习
该论文提出了 ZoomRL 算法,应用于连续状态 - 动作空间中的序列强化学习问题,通过自适应离散化来平衡开发与探索并获得良好的性能保证。算法可以达到最坏情况下的复杂度 $\tilde {O}(H^{rac {5}{2}} K^{rac {d+1}{d+2}})$,且对度量的偏离具有鲁棒性。
Mar, 2020
该研究论文探讨了模型无关的强化学习算法的样本效率问题,证明了 Q-learning 与 UCB 探索策略可以实现最优的样本效率,且无需模拟器,达到了根据有限状态和动作数量计算得到的仅有单一 $\sqrt {H}$ 因子的遗憾率。
Jul, 2018
该论文研究利用最近邻回归方法的最近邻 Q 学习算法,从单一样本路径中学习具有连续状态空间和未知转移核的无限期贴现 MDPs 的最优 Q 函数,提供了紧密的有限样本收敛速率分析和样本复杂度。
Feb, 2018
提出了一种新颖的模型无关的集合强化学习算法,通过在多个合成的与马尔可夫决策过程相关的环境上运行多个 Q 学习算法,并使用基于 Jensen-Shannon 差异的自适应加权机制来融合输出,获得具有低复杂度的近似最优策略。与最先进的 Q 学习算法相比,数值实验结果显示,该算法平均策略误差可以减少高达 55%,运行时复杂度可以减少高达 50%,并验证了理论分析中的假设。
Feb, 2024
在这项研究中,我们研究了将低秩马尔可夫决策过程(MDPs)的方法扩展到具有连续动作的情况,并探索了多种具体方法。我们以 FLAMBE 算法作为案例研究,表明在动作允许连续的情况下,得到了类似的 PAC 界限。
Nov, 2023
探讨了针对具有任意状态和动作空间的有限时间确定性控制系统的在线强化学习问题,提出了一种基于上置信强化学习的 Q 函数的乐观估计算法,证明了算法的性能界限和下界。
May, 2019
提出了 Effective Planning Window(EPW)条件,并提供一种算法来证明满足该条件的 MDPs 具有有效的样本使用率,该条件是在 RL 中不需要假设线性结构的一种结构性条件。
Jun, 2021
我们提出了多种经过证明有效的无模型强化学习算法,包括基于参考优势分解的在线无模型强化学习算法以及适用于模拟器环境的无模型强化学习算法,在平均报酬马尔科夫决策过程中实现更好的折扣估计和置信区间的高效构建。
Jun, 2023