关键词constrained markov decision process
搜索结果 - 25
- 具约束的有限时间 MDP 的高样本效率算法
本文研究了约束马尔可夫决策过程,并提出了一种在线算法,该算法利用了有限时间视角下的线性规划公式来进行乐观规划,以提供概率上正确的 γ 优化策略,该算法逐渐逼近最佳结果,并且保证结果最多只是 γ 深度有损失的结果,并且在指定公差范围内具有概率 - 带安全约束的学习:有约束 MDP 的强化学习样本复杂度
研究未知的 CMDP 和两种 RL 算法的关系,在满足安全约束的情况下,探索样本复杂性。结果表明,相对于不受约束的情况,受约束的 RL 算法的样本复杂性增加的因子是约束数量的对数,该方法可以在实际系统中轻松使用。
- AAAI基于约束的深度强化学习的在线三维装箱
利用被约束的深度强化学习,将 3D 装箱问题建模成约束的马尔科夫决策过程,使用可行性预测器来有效地预测可行的放置动作的概率,并且在训练过程中使用它来调节演员输出的行动概率,以便于在在线 3D 装箱问题中优化物品的放置并避免碰撞和翻转,本研究 - 基于原始对偶策略优化的可证明高效安全探索
该论文使用 CMDP 公式研究了安全强化学习(SRL)问题,在预期总回报的安全限制下最大化效用函数的预期总价值。提出了一种可证明计算效率和统计效率的在线策略优化算法 - OPTIMISTIC PRIMAL-DUAL PROXIMAL POL - 安全强化学习中的加速原始 - 对偶策略优化
本文提出了一种用于受限 Markov 决策过程 CMDPs 的策略搜索方法 APDO,并在模拟机器人运动任务上实验,结果表明 APDO 比 CMDPs 的现有方法具有更好的采样效率和更快的收敛速度。