有时间限制的强化学习
本文研究如何在满足成本平均值约束条件下,通过设计基于模型的强化学习算法,从而最大化累积奖励,同时确保每个成本值的平均值被绑定在特定的上界之内。此外,我们提出了一种衡量强化学习算法表现的方法,即使用M+1维的后悔向量来衡量奖励和不同成本的差异,并证明了UCRL-CMDP算法的后悔向量的期望值的上界为O(T ^ {2/3}).
Feb, 2020
本文提出了一种名为半无限约束马尔可夫决策过程(SICMDP)的模型,设计了两种基于模型和策略优化的强化学习算法(SI-CRL和SI-CPO),并在理论上进行了分析,以解决具有连续约束的决策任务。
Apr, 2023
这篇论文研究了任何时候有竞争性的马尔可夫决策过程(A-CMDP)的问题。现有的约束马尔可夫决策过程(CMDP)的研究旨在优化预期奖励,同时约束于随机动力学下的预期成本,但是在特定情况下成本仍然可能过高。相反,A-CMDP的目标是在任何一轮任何剧集中的策略先验下,通过优化预期奖励来保证有限的成本。我们提出了一种新算法,称为Anytime-Competitive Reinforcement Learning(ACRL),它可以证明保证了任何时候的成本约束。后悔分析显示该策略在任何时候的成本要求下渐近匹配了最优奖励。对碳智能计算应用的实验证明了ACRL的奖励性能和成本约束保证。
Nov, 2023
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始-对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的CMDP示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
我们研究了强化学习问题中的约束马尔可夫决策过程(CMDP),并通过优化算法对CMDP问题的样本复杂度提出了改进,实现了优化的问题相关保证。
Feb, 2024
我们提出了一种新颖的算法,能够高效计算约束强化学习问题的近似最优确定性策略。该算法通过三个关键思想进行组合:(1)价值需求增强,(2)动作空间的近似动态规划,以及(3)时间空间的取整。在较弱的奖励假设下,我们的算法构成了一个对多样化成本准则的全多项式时间近似方案。该类准则要求以递归方式计算策略的成本,涉及时间和状态空间,包括经典期望、几乎确定和实时约束。我们的工作不仅为解决实际决策中的挑战提供了经过证明的高效算法,还为高效计算约束性确定性策略提供了统一的理论。
May, 2024
基于后验抽样的新算法在无限时间视野下的有约束马尔科夫决策过程学习中实现了几乎最优的悔恨界限,并在实践中相比现有算法具有优势。
May, 2024
这篇研究论文提出了一个新的基于受约束的马尔可夫决策过程(CMDP)框架的强化学习算法,通过离线数据评估和策略梯度更新来在线学习,实现了CMDP在线性设置中的多项式样本复杂度。
Jun, 2024
本研究针对多智能体环境中的随时约束问题,提出了随时约束均衡(ACE)的解决方案概念。研究提供了一个全面的随时约束马尔可夫游戏理论,包括可行策略的计算特征、ACE的固定参数可计算算法,以及近似计算可行ACE的多项式时间算法,显示出在最坏情况分析下,计算可行策略的近似保证是可能的最优解。
Oct, 2024