这篇论文研究了任何时候有竞争性的马尔可夫决策过程(A-CMDP)的问题。现有的约束马尔可夫决策过程(CMDP)的研究旨在优化预期奖励,同时约束于随机动力学下的预期成本,但是在特定情况下成本仍然可能过高。相反,A-CMDP 的目标是在任何一轮任何剧集中的策略先验下,通过优化预期奖励来保证有限的成本。我们提出了一种新算法,称为 Anytime-Competitive Reinforcement Learning(ACRL),它可以证明保证了任何时候的成本约束。后悔分析显示该策略在任何时候的成本要求下渐近匹配了最优奖励。对碳智能计算应用的实验证明了 ACRL 的奖励性能和成本约束保证。
Nov, 2023
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率保证。
Sep, 2020
本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用 M+1 维的后悔向量来衡量奖励和不同成本的差异,并证明了 UCRL-CMDP 算法的后悔向量的期望值的上界为 O(T ^ {2/3}).
Feb, 2020
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。
Mar, 2024
本文介绍了一种鲁棒的任意学习方法,该方法结合了贝叶斯推断模型和计算稳健策略的方法,以不确定性马尔科夫决策过程(uMDPs)为基础,并通过实验验证了该方法的有效性。
May, 2022
本文提出了一种基于正则化原始对偶方案的模型为基础的算法,用于学习未知的多约束 CMDP,并证明了该算法在没有误差抵消的情况下能够实现亚线性遗憾。
Feb, 2024
本研究提出了一种政策优化算法,用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题,该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率,并将其推广到弱通信 MDP 领域,为该领域提供了复杂度可行的算法。
Jan, 2022
该论文研究使用在线学习算法在约束马尔可夫决策过程中收集奖励的同时确保满足某些长期约束条件,提出了一种适用于约束性马尔可夫决策过程的最佳算法,能够管理随机和敌对条件下的奖励以及约束,并提供了理论保证。
Apr, 2023
在无限时间、约束的马尔科夫决策过程中,通过零阶内点方法实现约束满足,以最大化预期累积奖励,确保策略在学习过程中的可行性,并具有样本复杂度 O (ε^(-6))
Dec, 2023