本文提出了一种无模型的算法来学习具有折扣因子的马尔可夫决策过程中的政策,该算法的成功概率为 (1-p),且具有样本复杂度 O (SALn (1/p)/(ε^2 (1-γ)^3)),其中 S 是状态数,A 是行动数,γ 是折扣因子,ε 是一个近似阈值
Jun, 2020
研究未知的 CMDP 和两种 RL 算法的关系,在满足安全约束的情况下,探索样本复杂性。结果表明,相对于不受约束的情况,受约束的 RL 算法的样本复杂性增加的因子是约束数量的对数,该方法可以在实际系统中轻松使用。
Aug, 2020
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率保证。
Sep, 2020
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了 DPDL 算法,并建立了样本复杂度下界,保证无约束违规。
Jul, 2022
通过生成采样模型计算马尔可夫决策过程问题的最优策略及其样本复杂度分析。
Jun, 2018
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024
在受限制的马尔可夫决策问题(CMDP)中,我们开发了原始 - 对偶加速自然策略梯度(PD-ANPG)算法,它保证了 ε 全局最优性差距和 ε 约束违反,样本复杂度为 O (ε^-3),从而在 CMDP 的样本复杂度上取得了 O (ε^-1) 的进展。
本文研究了固定时间段内交互式学习智能体的表现,并从样本复杂度的角度提出了上下 PAC 确定性保证边界,为固定时间段内 MDP 的研究提供了理论上的支持。
Oct, 2015
本研究考虑采用生成模型(模拟器)以获取平均奖励 MDP 中的 eps 策略最优性的样本复杂度。
Dec, 2022