我们提出了适用于合作多智能体有限和无限时域折扣马尔可夫决策过程的逼近策略迭代算法,其中使用近似线性规划计算近似值函数并实施分散策略改进。
Nov, 2023
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率保证。
Sep, 2020
研究无限时间、折扣的约束马尔可夫决策过程中的政策优化问题,提出了一种泛化的原始 - 对偶框架,用于评估算法表现,实例化了此框架来使用硬币投注算法并证明了其结果的目标约束逼近度,以及并非像其他方法一样需要超参数调整,并通过对合成和 Cartpole 环境的实验证明了其效力和稳健性。
Apr, 2022
本研究提出了一种政策优化算法,用于处理成本约束下的无限时间跨度平均奖励马尔可夫决策过程中的后悔最小化问题,该算法在符合一定条件的 MDP 下具有较低的后悔度和约束违反率,并将其推广到弱通信 MDP 领域,为该领域提供了复杂度可行的算法。
Jan, 2022
本文研究了一个在信息不完备的情况下,委托人和代理人之间的顺序决策问题。
Jun, 2023
研究使用线性函数逼近和模拟器的查询和计算高效的计划算法,在这种情况下,我们提出了名为 “Confident MC-LSPI” 和 “Confident MC-Politex” 的两种算法,同时证明了我们的算法在特征,有效规划控制范围和目标次优性的维度中具有多项查询和计算成本,而这些成本与状态空间的大小无关。
Aug, 2021
本论文提出了一种影响 - 乐观上界策略,用于解决具有非因式价值函数的解离式部分可观察 MDP 的规模为数十甚至数百个代理的规划问题,并在数字上比较了不同的上界,并证明了启发式解法的优化保证,展示了该方法的多代理规划方面的潜在应用。
Feb, 2015
本文提出一种使用基于占用测度的拉格朗日优化方法来解决约束马尔可夫博弈的在线安全强化学习算法,经更新的 minimax 决策原始变量和双重变量,达到亚线性后悔率和约束违规率,实现对马尔可夫博弈的高效学习。
May, 2023
我们引入并研究了具有任意时间限制的受限马尔可夫决策过程(cMDPs)。我们提出了一种固定参数可处理的方法,将具有任意时间限制的 cMDPs 转化为无约束的 MDPs。我们设计出了适用于大表 cMDPs 的计划和学习算法,并设计了近似算法,可以高效地计算或学习一个近似可行策略。
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则的全多项式时间近似方案。该类准则要求以递归方式计算策略的成本,涉及时间和状态空间,包括经典期望、几乎确定和实时约束。我们的工作不仅为解决实际决策中的挑战提供了经过证明的高效算法,还为高效计算约束性确定性策略提供了统一的理论。
May, 2024