基于模型的强化学习中贪心策略的严格遗憾界
通过采用 posterior sampling reinforcement learning (PSRL) 算法和 upper confidence bound algorithm (UCRL-Factored) 算法,在已知为 factored MDP 系统中,可将 regret 值多项式缩小到编码所需的 factored MDP 参数数量级别,从而大大减少了学习时间。
Mar, 2014
该研究针对有限时间段的离散马尔科夫决策问题,提出了一种算法并分析了其性能上限,得出了最先进的范围和如果环境规范小则更紧的限制,其不需要先前对应环境规范的知识,能解决经验学习中常常遇到的限制问题。
Jan, 2019
基于“面对不确定性的乐观原则”的算法,使用有限状态-动作空间的、用马尔可夫决策过程(MDP)建模的强化学习(RL)有效学习。通过评估最佳偏置函数$h^{*}$的状态对差异,该算法在已知$sp(h^{*})$的情况下实现MDP的遗憾界为$\tilde{O}(\sqrt{SAHT})$,这个结果超过了先前的最佳遗憾界$\tilde{O}(S\sqrt{AHT})$,并且匹配了遗憾下界。此外,对于有限直径$D$的MDP,我们证明了$ ilde{O}(\sqrt{SADT})$接近于最佳遗憾上界。
Jun, 2019
提出了RestartQ-UCB算法,它是第一个非定常强化学习的模型自由算法,并且通过实验证明在多代理强化学习和相关产品库存控制方面具有较好的性能。
Oct, 2020
本文研究基于后知的上下文中的潜在马尔可夫决策过程(LMDPs)的强化学习中的遗憾最小化问题,设计了一种新的基于模型的算法框架,证明了具有一定时间复杂度的遗憾上限。
Oct, 2022
本文提出了一种基于Lagrangian方法的新型模型双重算法OptAug-CMDP,针对标签化的有限路径CMDP,证明了该算法在探索CMDP的K个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
近期一些研究工作展示了强化学习中降低后悔的边界可以(几乎)与计划周期无关,即所谓的无周期边界。然而,这些后悔边界仅适用于允许对转移模型大小多项式依赖的设置,例如表格型马尔科夫决策过程(MDP)和线性混合MDP。我们给出了流行的线性MDP设置的首个无周期边界,其中转移模型的大小可以是指数级大甚至是不可数的。与先前的工作相比,该方法不需要明确估计转移模型并计算不同时间步的非齐次值函数,而是直接估计值函数和置信区间集合。通过保持多个加权最小二乘估计器,该方法获得了无周期边界,并且通过结构引理证明了非齐次值函数的最大总变差受特征维数的多项式因子限制。
Mar, 2024
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024
本研究解决了基于模型的强化学习在在线与离线设置中的悔恨与样本复杂度界限的问题。通过引入乐观与悲观规划程序,在简单的模型学习框架下,我们实现了无地平线和二阶界限的强悔恨分析。我们的算法简洁且标准,能够有效利用丰富的函数逼近能力,具有重要的理论与实际应用价值。
Aug, 2024