本文提出了一种基于 Lagrangian 方法的新型模型双重算法 OptAug-CMDP,针对标签化的有限路径 CMDP,证明了该算法在探索 CMDP 的 K 个周期内同时获得了目标和约束违规的期望性能敏感性,且无需进行错误取消。
Jun, 2023
我们研究带有对抗性损失和随机硬约束的约束马尔可夫决策过程(CMDP)中的在线学习问题。我们设计了两种不同的情景,第一种是在一般 CMDP 中实现次线性遗憾和累积正约束违规的算法。第二种情景下,我们假设策略存在且对学习者已知,并设计了一个算法,确保次线性遗憾的同时,高概率满足所有回合的约束。据我们所知,我们的工作是第一个研究同时涉及对抗性损失和硬约束的 CMDP。这些算法可处理一般非平稳环境中的要求,要求比现有算法处理的要严格得多,从而能够在更广范围的实际应用中采用,包括自动驾驶、在线广告和推荐系统。
Mar, 2024
本文关注于强化学习中保障安全的关键问题,提出一种新的基于置信上限的原始对偶算法,更好地解决了环境参数未知的情况下,限制条件作用下的 regret 分析。
Mar, 2020
本研究针对离线数据的约束马尔可夫决策过程问题,引入了单策略集中度系数、提出了 DPDL 算法,并建立了样本复杂度下界,保证无约束违规。
Jul, 2022
我们介绍了一种具有均匀概率近似正确性保证的新型策略梯度原始 - 对偶算法,同时保证了收敛至最优策略、次线性遗憾和多项式样本复杂度的理论保证,并在一个简单的 CMDP 示例中进行实证展示,证明了算法收敛至最优策略,而现有算法则表现出振荡性能和约束违规。
Jan, 2024
本文研究了具有不稳定目标和约束的约束马尔可夫决策过程的原始 - 对偶强化学习,并提出了具有安全性和适应性的时间变化中安全的 RL 算法,同时建立了动态遗憾界和约束违规界。
Jan, 2022
本文提出了一种基于采样的原始 - 对偶算法来解决带约束的马尔科夫决策过程,通过应用正则化策略迭代来改善策略,应用次梯度上升来保持约束。在弱耦合结构的情况下,通过嵌入式分解方法,能够显著减少问题的维度。将算法应用于多产品库存管理和多类队列调度,并表明它产生优于现有启发式算法的控制。
Jan, 2021
本文研究了 Constrained Markov Decision Processes 下的 exploration-exploitation trade-off 问题,提出了两种方法:基于线性规划和基于对偶变量逐步更新的方法。研究结果表明,这两种方法都可以实现 sublinear regret,但是线性规划方法具有更强的保障性。
本论文提出了一种新的原始对偶方法来解决带限制的马尔可夫决策过程问题,通过熵正规化策略优化器、对偶变量正规化器和 Nesterov 加速梯度下降对偶优化器等创新方法,全局收敛至凸优化下的凸约束,显示了目前已有的原始对偶算法无法达到的最优复杂度 O (1/ε)。
Oct, 2021
该研究提出了一种保守随机原始 - 对偶算法 (CSPDA),用于解决基于约束马尔可夫决策过程 (CMDP) 的强化学习问题,该算法能够在零约束违规的情况下实现 ε- 最优累积奖励,并提供比现有算法更有效率的复杂度。
Sep, 2021