MDP中无折扣强化学习的方差感知遗憾界
通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
本文研究了有限时间MDPs中探索的最优性问题,提出了一种基于值迭代的乐观算法,其探索奖励基于下一个状态的经验值的变化量,通过使用集中不等式提高算法的可伸缩性,取得了优于先前最佳算法的研究成果,可以实现与已知理论下限相匹配的后悔度。
Mar, 2017
提出了一种基于后验采样的算法,应用于具有有限但未知直径的Markov决策过程中,证明了近最优的最坏情况遗憾上界。这种方法通过证明Dirichlet分布的反集中性,可能具有独立研究价值,并将总奖励与最优无限时维度折扣的平均奖励策略的总期望奖励在时间结构 $T$ 中呈现出紧密的匹配。
May, 2017
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
该研究针对马尔可夫决策过程中的无折扣强化学习问题提出了一种算法,并提供了针对最优非静态策略的性能保证。给出了在MDP总变差方面的差错的上限,这是一般强化学习设置的第一个变分差错界限。
May, 2019
基于“面对不确定性的乐观原则”的算法,使用有限状态-动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数$h^{*}$的状态对差异,该算法在已知$sp(h^{*})$的情况下实现MDP的遗憾界为$\tilde{O}(\sqrt{SAHT})$,这个结果超过了先前的最佳遗憾界$\tilde{O}(S\sqrt{AHT})$,并且匹配了遗憾下界。此外,对于有限直径$D$的MDP,我们证明了$ ilde{O}(\sqrt{SADT})$接近于最佳遗憾上界。
Jun, 2019
本文提出了一种新的方差感知置信集,用于线性 bandits 和线性混合马尔可夫决策过程(MDPs)中,我们得到了与方差和维度相关,但不显式依赖于循环次数 k 的后悔上限,并获得了史上首个仅在强化学习中呈对数比例的后悔上限,这三种技术思想可能是独立感兴趣的应用。
Jan, 2021
本研究基于鲁棒Catoni平均值估计器,提出一种新的鲁棒自归一化浓度界,解决了已有技术在大状态空间强化学习中无法获得遗憾上界的问题,并证明了在线性MDP设定下,可以获得与最优策略性能某种度量成比例的遗憾上界。
Dec, 2021
研究马尔可夫决策过程中方差相关的遗憾界限,提出两个新的环境范数并设计了MVP算法和参考函数算法进行模型建模和模型自由算法,得到方差相关界限的上界和下界。
Jan, 2023
这篇论文介绍了一种具有最小最大后悔度的可行算法,该算法通过使用一种新颖的子程序,即Projected Mitigated Extended Value Iteration(PMEVI),来高效地计算偏差受限最优策略。同时,该算法不需要先前关于偏差函数的信息。
Jun, 2024